un — Teoría de la Información

un

invitado

1 / ?

volver a las lecciones

Lo que Shannon Llamó Información

Shannon definió la información midiendo la sorpresa. Un mensaje con probabilidad p contiene:

I = −log₂(p) bits

Un evento seguro (p = 1) contiene 0 bits — sin sorpresa, sin información. Un evento raro (p = 1/1024) contiene 10 bits.

Hamming señala inmediatamente el problema: esta es una fórmula para medir una cantidad, no una definición del concepto. Mide la sorpresa similar a la de una máquina, no el significado humano. Un estudiante que ya conoce la respuesta a una pregunta recibe 0 bits de la respuesta — independientemente de cuán importante sea la respuesta para otros.

La fórmula se aplica bien a sistemas telefónicos, radio, computadoras. Se aplica mal a la comunicación humana, biología, o significado. El nombre preferido de Hamming: 'Teoría de la Comunicación', no 'Teoría de la Información'.

Entropía

Para un alfabeto de q símbolos con probabilidades p₁, p₂, ..., p_q, la información promedio por símbolo es la entropía:

H = −Σᵢ pᵢ log₂(pᵢ)

H alcanza su máximo cuando todas las probabilidades son iguales: H_max = log₂(q) bits. Cualquier distribución no uniforme tiene menor entropía.

Calculando Entropía

Entropía binaria: una fuente con dos símbolos, P(0) = p, P(1) = 1−p.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H(p) = 0 en p = 0 o p = 1 (completamente predecible). H(p) = 1 bit en p = 0.5 (completamente impredecible).

Entropía Binaria y Capacidad de Canal

Calcula H(p) para p = 0.25. Muestra la fórmula con números sustituidos, evalúa ambos términos, y establece el resultado en bits. Luego interpreta: ¿qué te dice que H(0.25) < H(0.5) acerca del contenido de información de un lanzamiento de moneda sesgada en comparación con un lanzamiento de moneda justa?

Desigualdad de Gibbs y Codificación sin Ruido

Desigualdad de Gibbs: para dos distribuciones de probabilidad p = {pᵢ} y q = {qᵢ}:

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

con igualdad solo cuando p = q. Esto se basa en el hecho elemental de que ln(x) ≤ x − 1 para todo x > 0, con igualdad en x = 1.

Consecuencia: la entropía H(p) se maximiza cuando todos los símbolos tienen probabilidades iguales. Para q símbolos: H_max = log₂(q).

Teorema de codificación sin ruido: dada una código unívocamente descodificable, la desigualdad de Kraft requiere Σ 2^(−lᵢ) ≤ 1 donde lᵢ es la longitud del código del símbolo i. Por la desigualdad de Gibbs, la longitud promedio del código L = Σ pᵢ lᵢ satisface:

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

No puedes hacerlo mejor que la entropía en promedio. La codificación de Huffman logra L < H + 1.

La desigualdad de Gibbs dice H(p) ≤ −Σ pᵢ log₂(qᵢ) para cualquier distribución q. Cuando q es la distribución uniforme qᵢ = 1/q para todo i, el lado derecho se simplifica a log₂(q). Muestra esta simplificación algebraicamente, luego establece qué implica acerca de la entropía máxima de un alfabeto de q símbolos.

Capacidad del Canal

Un canal binario simétrico (BSC) voltea cada bit independientemente con probabilidad de error Q = 1 − P. La capacidad del BSC — la máxima tasa de información confiable — es:

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

donde H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) es la entropía binaria de la tasa de error.

Con Q = 0 (sin errores): C = 1 bit/transmisión (canal perfecto). Con Q = 0.5 (volteo aleatorio): C = 0 (el canal no lleva información). Con Q = 1 (todos los bits se voltean): C = 1 (sabes exactamente qué envió el remitente, solo invierte todo de vuelta).

C mide la tasa máxima R a la que puedes transmitir con probabilidad de error arbitrariamente pequeña. Si R < C, tales códigos existen. Si R > C, no existen — ningún código puede superar la capacidad.

Entropía y Capacidad de Canal

Calculando Capacidad de Canal

Con P = 0.9 (tasa de error del 10%, Q = 0.1):

C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)

log₂(0.9) ≈ −0.152, log₂(0.1) ≈ −3.322

C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531 bits/transmisión

Un canal binario simétrico tiene probabilidad de error Q = 0.2 (P = 0.8). Calcula la capacidad del canal C = 1 + P log₂(P) + Q log₂(Q). Usa log₂(0.8) ≈ −0.322 y log₂(0.2) ≈ −2.322. Muestra tu sustitución y aritmética, luego interpreta: en esta capacidad, ¿qué fracción de la tasa de bit bruta puede llevar información real?

Lo que el Teorema Demuestra

Teorema fundamental de Shannon: para cualquier tasa R < C, existen códigos de longitud de bloque n (con n → ∞) que logran probabilidad de error P_E → 0.

La prueba utiliza un argumento sorprendente: códigos aleatorios. En lugar de construir un código específico, Shannon promediaba sobre todos los libros de códigos aleatorios posibles (codificación con lanzamiento de moneda). Mostró que el error promedio sobre todos los libros de códigos es pequeño. Si el promedio es pequeño, al menos un código logra error pequeño.

Análisis basado en esferas: el remitente elige el mensaje aᵢ → esfera de radio n(Q + ε₂) alrededor de aᵢ en espacio binario n-dimensional. Para n grande, la palabra recibida bⱼ se encuentra dentro de esta esfera con alta probabilidad. El receptor descodifica a la palabra código cuya esfera contiene bⱼ.

Cuatro casos determinan la probabilidad de error P_E:

``aᵢ en esfera otra aⱼ en esfera resultado sí no correcto (sin error) sí sí ambiguo → error no sí decodificación incorrecta → error no no fuera de todas las esferas → error``

Geometría de la Información y Empaque de Esferas

El límite en P_E resulta ser: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) para ε₂ elegida adecuadamente. Eligiendo ε₂ de modo que H(Q+ε₂) < C hace el exponente negativo. Para n grande, el segundo término → 0.

La Naturaleza Existencial del Teorema

Hamming fue preciso acerca de qué hace el teorema y qué no proporciona.

Lo que demuestra: la comunicación confiable a tasa R < C es posible, en principio, para n suficientemente grande.

Lo que no proporciona: construcción explícita de código. Un código aleatorio de longitud n suficientemente grande para aproximarse a la capacidad tiene un libro de códigos de tamaño M × n bits, donde tanto M como n son astronómicamente grandes. No puedes almacenarlo ni computar con él.

Códigos correctores de errores vs. Shannon: los códigos correctores de errores (Hamming, Reed-Solomon, turbo, LDPC) proporcionan construcciones explícitas y computables. Sacrifican algo de distancia a la capacidad a cambio de codificadores y decodificadores prácticos. A medida que n crece y se corrigen más errores por bloque, los códigos prácticos pueden aproximarse estrechamente a la capacidad.

El ejemplo de satélites espaciales: Voyager y Pioneer utilizaron poderosos códigos correctores de errores para comunicarse a través de miles de millones de millas con 5–20 vatios de potencia. Longitudes de bloque grandes permitían corregir más errores por bloque, acercándose a la capacidad a pesar del enorme ruido de la distancia.

Evaluación Crítica

Hamming cerró el Capítulo 13 con una crítica más amplia de las definiciones en la ciencia. La fórmula de información de Shannon mide la sorpresa de la máquina, no el significado humano. El nombre 'Teoría de la Información' promete demasiado. La analogía de la red de pesca: un pescador que solo captura peces más grandes que la malla de su red concluye que no hay peces más pequeños. Las limitaciones de la herramienta se convierten en las restricciones aparentes del mundo.

El teorema de Shannon demuestra que códigos que logran error arbitrariamente pequeño a tasa R < C existen, pero la prueba no es constructiva: muestra existencia promediando sobre libros de códigos aleatorios, no construyendo un código. Explica con tus propias palabras por qué esto importa prácticamente, y describe qué brecha entre la prueba de existencia de Shannon y un código corrector de errores que funcione requiere que los ingenieros resuelvan.

El Problema con las Definiciones

Hamming utilizó la teoría de la información para hacer un punto metodológico más amplio: las definiciones iniciales determinan lo que encuentras, más de lo que la mayoría de las personas se da cuenta.

Shannon eligió definir 'información' como sorpresa. Esa definición fue productiva para la ingeniería de comunicaciones. Pero importó un alcance específico — sistemas similares a máquinas — a una palabra ('información') que sugiere aplicabilidad universal.

La analogía de la red de pesca: una red con malla de 6 pulgadas solo captura peces grandes. El pescador concluye: el tamaño mínimo de los peces es de 6 pulgadas. La conclusión refleja la herramienta, no el mundo.

El IQ como un paralelo: una prueba diseñada para medir 'inteligencia', calibrada para producir una distribución normal, luego utilizada para definir inteligencia. La herramienta forma el concepto.

La recomendación de Hamming: siempre que encuentres una definición, pregunta (1) ¿cuánto concuerda con tu intuición previa? (2) ¿cuánto distorsiona? (3) ¿bajo qué condiciones se formuló? (4) ¿se está aplicando ahora bajo condiciones diferentes?

Aplica la crítica de cuatro preguntas de Hamming a la definición de información de Shannon. Para cada una de las cuatro preguntas, da una respuesta específica que muestre que has participado tanto con la definición como con sus límites.