Lo que Shannon Llamó Información
Shannon definió la información midiendo la sorpresa. Un mensaje con probabilidad p contiene:
I = −log₂(p) bits
Un evento seguro (p = 1) contiene 0 bits — sin sorpresa, sin información. Un evento raro (p = 1/1024) contiene 10 bits.
Hamming señala inmediatamente el problema: esta es una fórmula para medir una cantidad, no una definición del concepto. Mide la sorpresa similar a la de una máquina, no el significado humano. Un estudiante que ya conoce la respuesta a una pregunta recibe 0 bits de la respuesta — independientemente de cuán importante sea la respuesta para otros.
La fórmula se aplica bien a sistemas telefónicos, radio, computadoras. Se aplica mal a la comunicación humana, biología, o significado. El nombre preferido de Hamming: 'Teoría de la Comunicación', no 'Teoría de la Información'.
Entropía
Para un alfabeto de q símbolos con probabilidades p₁, p₂, ..., p_q, la información promedio por símbolo es la entropía:
H = −Σᵢ pᵢ log₂(pᵢ)
H alcanza su máximo cuando todas las probabilidades son iguales: H_max = log₂(q) bits. Cualquier distribución no uniforme tiene menor entropía.
Calculando Entropía
Entropía binaria: una fuente con dos símbolos, P(0) = p, P(1) = 1−p.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H(p) = 0 en p = 0 o p = 1 (completamente predecible). H(p) = 1 bit en p = 0.5 (completamente impredecible).
Desigualdad de Gibbs y Codificación sin Ruido
Desigualdad de Gibbs: para dos distribuciones de probabilidad p = {pᵢ} y q = {qᵢ}:
−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)
con igualdad solo cuando p = q. Esto se basa en el hecho elemental de que ln(x) ≤ x − 1 para todo x > 0, con igualdad en x = 1.
Consecuencia: la entropía H(p) se maximiza cuando todos los símbolos tienen probabilidades iguales. Para q símbolos: H_max = log₂(q).
Teorema de codificación sin ruido: dada una código unívocamente descodificable, la desigualdad de Kraft requiere Σ 2^(−lᵢ) ≤ 1 donde lᵢ es la longitud del código del símbolo i. Por la desigualdad de Gibbs, la longitud promedio del código L = Σ pᵢ lᵢ satisface:
L ≥ H(p) = −Σ pᵢ log₂(pᵢ)
No puedes hacerlo mejor que la entropía en promedio. La codificación de Huffman logra L < H + 1.
Capacidad del Canal
Un canal binario simétrico (BSC) voltea cada bit independientemente con probabilidad de error Q = 1 − P. La capacidad del BSC — la máxima tasa de información confiable — es:
C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)
donde H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) es la entropía binaria de la tasa de error.
Con Q = 0 (sin errores): C = 1 bit/transmisión (canal perfecto). Con Q = 0.5 (volteo aleatorio): C = 0 (el canal no lleva información). Con Q = 1 (todos los bits se voltean): C = 1 (sabes exactamente qué envió el remitente, solo invierte todo de vuelta).
C mide la tasa máxima R a la que puedes transmitir con probabilidad de error arbitrariamente pequeña. Si R < C, tales códigos existen. Si R > C, no existen — ningún código puede superar la capacidad.
Calculando Capacidad de Canal
Con P = 0.9 (tasa de error del 10%, Q = 0.1):
C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)
log₂(0.9) ≈ −0.152, log₂(0.1) ≈ −3.322
C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531 bits/transmisión
Lo que el Teorema Demuestra
Teorema fundamental de Shannon: para cualquier tasa R < C, existen códigos de longitud de bloque n (con n → ∞) que logran probabilidad de error P_E → 0.
La prueba utiliza un argumento sorprendente: códigos aleatorios. En lugar de construir un código específico, Shannon promediaba sobre todos los libros de códigos aleatorios posibles (codificación con lanzamiento de moneda). Mostró que el error promedio sobre todos los libros de códigos es pequeño. Si el promedio es pequeño, al menos un código logra error pequeño.
Análisis basado en esferas: el remitente elige el mensaje aᵢ → esfera de radio n(Q + ε₂) alrededor de aᵢ en espacio binario n-dimensional. Para n grande, la palabra recibida bⱼ se encuentra dentro de esta esfera con alta probabilidad. El receptor descodifica a la palabra código cuya esfera contiene bⱼ.
Cuatro casos determinan la probabilidad de error P_E:
``
aᵢ en esfera otra aⱼ en esfera resultado
sí no correcto (sin error)
sí sí ambiguo → error
no sí decodificación incorrecta → error
no no fuera de todas las esferas → error
``
El límite en P_E resulta ser: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) para ε₂ elegida adecuadamente. Eligiendo ε₂ de modo que H(Q+ε₂) < C hace el exponente negativo. Para n grande, el segundo término → 0.
La Naturaleza Existencial del Teorema
Hamming fue preciso acerca de qué hace el teorema y qué no proporciona.
Lo que demuestra: la comunicación confiable a tasa R < C es posible, en principio, para n suficientemente grande.
Lo que no proporciona: construcción explícita de código. Un código aleatorio de longitud n suficientemente grande para aproximarse a la capacidad tiene un libro de códigos de tamaño M × n bits, donde tanto M como n son astronómicamente grandes. No puedes almacenarlo ni computar con él.
Códigos correctores de errores vs. Shannon: los códigos correctores de errores (Hamming, Reed-Solomon, turbo, LDPC) proporcionan construcciones explícitas y computables. Sacrifican algo de distancia a la capacidad a cambio de codificadores y decodificadores prácticos. A medida que n crece y se corrigen más errores por bloque, los códigos prácticos pueden aproximarse estrechamente a la capacidad.
El ejemplo de satélites espaciales: Voyager y Pioneer utilizaron poderosos códigos correctores de errores para comunicarse a través de miles de millones de millas con 5–20 vatios de potencia. Longitudes de bloque grandes permitían corregir más errores por bloque, acercándose a la capacidad a pesar del enorme ruido de la distancia.
Evaluación Crítica
Hamming cerró el Capítulo 13 con una crítica más amplia de las definiciones en la ciencia. La fórmula de información de Shannon mide la sorpresa de la máquina, no el significado humano. El nombre 'Teoría de la Información' promete demasiado. La analogía de la red de pesca: un pescador que solo captura peces más grandes que la malla de su red concluye que no hay peces más pequeños. Las limitaciones de la herramienta se convierten en las restricciones aparentes del mundo.
El Problema con las Definiciones
Hamming utilizó la teoría de la información para hacer un punto metodológico más amplio: las definiciones iniciales determinan lo que encuentras, más de lo que la mayoría de las personas se da cuenta.
Shannon eligió definir 'información' como sorpresa. Esa definición fue productiva para la ingeniería de comunicaciones. Pero importó un alcance específico — sistemas similares a máquinas — a una palabra ('información') que sugiere aplicabilidad universal.
La analogía de la red de pesca: una red con malla de 6 pulgadas solo captura peces grandes. El pescador concluye: el tamaño mínimo de los peces es de 6 pulgadas. La conclusión refleja la herramienta, no el mundo.
El IQ como un paralelo: una prueba diseñada para medir 'inteligencia', calibrada para producir una distribución normal, luego utilizada para definir inteligencia. La herramienta forma el concepto.
La recomendación de Hamming: siempre que encuentres una definición, pregunta (1) ¿cuánto concuerda con tu intuición previa? (2) ¿cuánto distorsiona? (3) ¿bajo qué condiciones se formuló? (4) ¿se está aplicando ahora bajo condiciones diferentes?