un — Geometría de la Teoría de la Información

un

invitado

1 / ?

volver a las lecciones

El Símplex de Probabilidad

Una distribución de probabilidad sobre q símbolos es un punto en el símplex (q−1)-dimensional: el conjunto de todos los vectores (p₁, ..., p_q) con pᵢ ≥ 0 y Σ pᵢ = 1.

Para q = 2: el símplex es un segmento de línea [0,1], parametrizado por una única probabilidad p. Para q = 3: el símplex es un triángulo equilátero en ℝ². Cada esquina es una distribución determinista (toda la probabilidad en un símbolo); el centro es la distribución uniforme.

La Entropía H(p) asigna un número real a cada punto del símplex. La geometría de la función determina muchos resultados fundamentales.

Concavidad

H es cóncava en el símplex: para cualesquiera dos distribuciones p y q y cualquier λ ∈ [0,1]:

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

Una mezcla de dos distribuciones tiene entropía al menos tan grande como el promedio ponderado de sus entropías individuales. Intuición: mezclar dos fuentes aumenta la incertidumbre.

Curva de Entropía & Capacidad del Canal

Verificando la Concavidad

Para la entropía binaria H(p), la concavidad es visible en el gráfico: la curva se arquea hacia arriba, nunca cayendo por debajo de ninguna cuerda que conecte dos puntos.

Prueba formal de concavidad: la segunda derivada H''(p) ≤ 0 en todas partes.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 para todo p ∈ (0,1)

La segunda derivada es estrictamente negativa en todas partes del interior: H es estrictamente cóncava.

Usa la prueba de la segunda derivada para verificar que H(p) es cóncava. Comenzando con H'(p) = log₂((1−p)/p), diferencia una vez más para obtener H''(p). Muestra los pasos de diferenciación y confirma que H''(p) < 0 para todo p ∈ (0,1). ¿Qué implica la concavidad estricta sobre la ubicación del máximo?

La Distribución que Logra Capacidad

La capacidad del canal se define como la información mutua máxima sobre todas las distribuciones de entrada p(x):

C = max_{p(x)} I(X; Y)

donde I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).

Para el canal binario simétrico con probabilidad de error Q: la distribución de entrada que logra capacidad es la distribución uniforme p(0) = p(1) = 0,5.

Por qué: H(Y) se maximiza mediante la distribución de salida uniforme. Con un BSC, una entrada uniforme da una salida uniforme. Cualquier otra distribución de entrada hace que H(Y) sea más pequeña, reduciendo I(X;Y).

Geométricamente: la información mutua I(X;Y) es una función cóncava de la distribución de entrada p(x) en el símplex. El máximo de una función cóncava en un conjunto convexo se logra en un punto único (el centro, para un canal simétrico).

La información mutua I(X;Y) es cóncava en p(x) y convexa en el canal p(y|x). Para un canal binario simétrico con Q = 0,3, calcula la capacidad del canal C. Luego explica geométricamente por qué el máximo de I(X;Y) sobre distribuciones de entrada se logra en p(0) = p(1) = 0,5 para un canal simétrico.

Divergencia KL

La divergencia de Kullback-Leibler (entropía relativa) de la distribución q a la distribución p:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0 siempre (desigualdad de Gibbs). D(p || q) = 0 si y solo si p = q.

D no es una verdadera distancia: es asimétrica (D(p||q) ≠ D(q||p) en general) y no satisface la desigualdad triangular. Pero actúa como una medida de cuán 'lejana' está p de q en el espacio de probabilidad.

La divergencia KL aparece en toda la teoría de la información:

- Información mutua: I(X;Y) = D(p(x,y) || p(x)p(y)). La información mutua es la divergencia KL entre la distribución conjunta y el producto de los marginales — cuán lejos está la distribución conjunta de la independencia.

- Desigualdad de Gibbs: el teorema de codificación sin ruido se sigue directamente de D(p || q) ≥ 0.

- Capacidad del canal: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).

Geometría en el Espacio de Probabilidad

Calculando la Divergencia KL

Ejemplo: p = (0,5, 0,5) binario uniforme, q = (0,8, 0,2) binario sesgado.

D(p || q) = 0,5 log₂(0,5/0,8) + 0,5 log₂(0,5/0,2)

= 0,5 log₂(0,625) + 0,5 log₂(2,5)

≈ 0,5 × (−0,678) + 0,5 × 1,322 ≈ −0,339 + 0,661 ≈ 0,322 bits

Calcula D(q || p) para p = (0,5, 0,5) y q = (0,8, 0,2). Muestra la fórmula con valores sustituidos. Luego compara D(q||p) vs. D(p||q) ≈ 0,322 bits. ¿Son iguales? ¿Qué significa geométricamente esta asimetría — por qué la divergencia KL no es una verdadera métrica de distancia?

Capacidad del Canal como Distancia Geométrica

La capacidad del canal tiene una interpretación geométrica en el espacio de las distribuciones de probabilidad.

Para un canal p(y|x), define la distribución de entrada que logra capacidad p*(x). La capacidad satisface:

C = D(p*(y) || r(y))

donde p(y) = Σ p(x) p(y|x) es la distribución de salida bajo la entrada óptima, y r(y) = argmin_r max_x D(p(y|x) || r(y)) es la distribución de salida de mínima información — el punto en el espacio de probabilidad de salida más cercano (en divergencia KL) a todas las distribuciones de salida condicionales simultáneamente.

Esta es la vista información-geométrica: la capacidad del canal es el radio de la bola de divergencia KL más pequeña en el espacio de distribuciones de salida que contiene todas las distribuciones condicionales p(y|x=0) y p(y|x=1).

Para el BSC: p(y|x=0) = (1−Q, Q) y p(y|x=1) = (Q, 1−Q). Por simetría, la salida de mínima información r(y) = (0,5, 0,5). Capacidad = D((1−Q, Q) || (0,5, 0,5)) = 1 − H(Q). La fórmula recupera el resultado estándar de la geometría.

Capacidad desde la Divergencia KL

Verifica la fórmula geométrica: C = D(p(y|x=0) || r(y)) para un BSC con Q = 0,1, r(y) = (0,5, 0,5).

p(y|x=0) = (0,9, 0,1) (envía 0, recibe 0 con prob 0,9, recibe 1 con prob 0,1).

D((0,9, 0,1) || (0,5, 0,5)) = 0,9 log₂(0,9/0,5) + 0,1 log₂(0,1/0,5)

= 0,9 log₂(1,8) + 0,1 log₂(0,2)

log₂(1,8) ≈ 0,848, log₂(0,2) ≈ −2,322

= 0,9×0,848 + 0,1×(−2,322) ≈ 0,763 − 0,232 ≈ 0,531 bits

Verifica: C = 1 − H(0,1) ≈ 1 − 0,469 = 0,531 bits ✓

Para un BSC con Q = 0,2, verifica la fórmula de capacidad geométrica calculando D(p(y|x=0) || r(y)) donde p(y|x=0) = (0,8, 0,2) y r(y) = (0,5, 0,5). Usa log₂(1,6) ≈ 0,678 y log₂(0,4) ≈ −1,322. Luego confirma que el resultado coincide con C = 1 − H(0,2).

Velocidad-Distorsión & los Límites de la Compresión

La teoría de velocidad-distorsión extiende la teoría de la información a la compresión con pérdida. En lugar de preguntar '¿cuál es la cantidad mínima de bits para representar una fuente exactamente?', pregunta: 'dada la tolerancia para alguna distorsión promedio D, ¿cuál es la velocidad mínima R(D) bits por símbolo?'

La función velocidad-distorsión R(D) es convexa y decreciente en D: mayor tolerancia de distorsión permite tasas más bajas. En D = 0 (sin pérdida): R(0) = H(fuente). Conforme D aumenta, R(D) → 0.

Geométricamente: R(D) traza una curva en el plano (velocidad, distorsión). Todo par (R, D) alcanzable se encuentra en o por encima de esta curva. Los puntos por debajo de la curva son imposibles — no puedes comprimir por debajo del límite fundamental en ningún nivel de distorsión.

El teorema de velocidad-distorsión (Shannon, 1959): para cualquier R > R(D), existen códigos que logran distorsión esperada como máximo D. Para R < R(D): ningún código logra distorsión esperada D. La curva es una frontera geométrica en el espacio (velocidad, distorsión).

La función velocidad-distorsión R(D) es convexa y decreciente. Describe en términos geométricos qué implica la convexidad de R(D) sobre el costo marginal de reducir la distorsión conforme te acercas a D = 0. Luego conecta esto a un compromiso práctico de ingeniería: ¿por qué los formatos de compresión con pérdida (JPEG, MP3) operan muy por encima de D = 0?