O que Shannon Chamou de Informação
Shannon definiu informação medindo surpresa. Uma mensagem com probabilidade p carrega:
I = −log₂(p) bits
Um evento certo (p = 1) carrega 0 bits — sem surpresa, sem informação. Um evento raro (p = 1/1024) carrega 10 bits.
Hamming imediatamente aponta o problema: esta é uma fórmula para medir uma quantidade, não uma definição do conceito. Ela mede surpresa semelhante à de uma máquina, não significado humano. Um estudante que já conhece a resposta a uma pergunta recebe 0 bits da resposta — independentemente de quanto essa resposta é importante para outros.
A fórmula se aplica bem a sistemas telefônicos, rádio, computadores. Ela se aplica mal a comunicação humana, biologia ou significado. O nome preferido de Hamming: 'Teoria da Comunicação', não 'Teoria da Informação'.
Entropia
Para um alfabeto de q símbolos com probabilidades p₁, p₂, ..., p_q, a informação média por símbolo é a entropia:
H = −Σᵢ pᵢ log₂(pᵢ)
H atinge seu máximo quando todas as probabilidades são iguais: H_max = log₂(q) bits. Qualquer distribuição não uniforme tem entropia menor.
Calculando Entropia
Entropia binária: uma fonte com dois símbolos, P(0) = p, P(1) = 1−p.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H(p) = 0 em p = 0 ou p = 1 (completamente previsível). H(p) = 1 bit em p = 0,5 (completamente imprevisível).
Desigualdade de Gibbs e Codificação sem Ruído
Desigualdade de Gibbs: para quaisquer duas distribuições de probabilidade p = {pᵢ} e q = {qᵢ}:
−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)
com igualdade apenas quando p = q. Isso se baseia no fato elementar de que ln(x) ≤ x − 1 para todo x > 0, com igualdade em x = 1.
Consequência: a entropia H(p) é maximizada quando todos os símbolos são igualmente prováveis. Para q símbolos: H_max = log₂(q).
Teorema da codificação sem ruído: dado um código unicamente decodificável, a desigualdade de Kraft requer Σ 2^(−lᵢ) ≤ 1 onde lᵢ é o comprimento do código para o símbolo i. Pela desigualdade de Gibbs, o comprimento médio do código L = Σ pᵢ lᵢ satisfaz:
L ≥ H(p) = −Σ pᵢ log₂(pᵢ)
Você não pode fazer melhor que a entropia em média. A codificação de Huffman atinge L < H + 1.
Capacidade do Canal
Um canal binário simétrico (BSC) inverte cada bit independentemente com probabilidade de erro Q = 1 − P. A capacidade do BSC — taxa máxima confiável de informação — é:
C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)
onde H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) é a entropia binária da taxa de erro.
Em Q = 0 (sem erros): C = 1 bit/transmissão (canal perfeito). Em Q = 0,5 (inversão aleatória): C = 0 (o canal não carrega informação). Em Q = 1 (todos os bits invertem): C = 1 (você sabe exatamente o que o remetente enviou, apenas inverta tudo de volta).
C mede a taxa máxima R com a qual você pode transmitir com probabilidade de erro arbitrariamente pequena. Se R < C, tais códigos existem. Se R > C, eles não existem — nenhum código pode superar a capacidade.
Calculando a Capacidade do Canal
Com P = 0,9 (taxa de erro de 10%, Q = 0,1):
C = 1 + 0,9 log₂(0,9) + 0,1 log₂(0,1)
log₂(0,9) ≈ −0,152, log₂(0,1) ≈ −3,322
C ≈ 1 + 0,9×(−0,152) + 0,1×(−3,322) = 1 − 0,137 − 0,332 ≈ 0,531 bits/transmissão
O que o Teorema Prova
Teorema fundamental de Shannon: para qualquer taxa R < C, existem códigos de comprimento de bloco n (com n → ∞) que alcançam probabilidade de erro P_E → 0.
A prova usa um argumento surpreendente: códigos aleatórios. Em vez de construir um código específico, Shannon calculou a média de todos os possíveis livros de código aleatório (codificação de lançamento de moeda). Ele mostrou que o erro médio sobre todos os livros de código é pequeno. Se a média é pequena, pelo menos um código atinge erro pequeno.
Análise baseada em esferas: o remetente escolhe a mensagem aᵢ → esfera de raio n(Q + ε₂) ao redor de aᵢ no espaço binário n-dimensional. Para n grande, a palavra recebida bⱼ fica dentro dessa esfera com alta probabilidade. O receptor decodifica para a palavra-código cuja esfera contém bⱼ.
Quatro casos determinam a probabilidade de erro P_E:
``
aᵢ em esfera outro aⱼ em esfera resultado
sim não correto (sem erro)
sim sim ambíguo → erro
não sim decodificação errada → erro
não não fora de todas as esferas → erro
``
O limite em P_E funciona assim: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) para d e ε₂ adequadamente escolhidos. Escolher ε₂ de forma que H(Q+ε₂) < C torna o expoente negativo. Para n grande, o segundo termo → 0.
A Natureza Existencial do Teorema
Hamming foi preciso sobre o que o teorema faz e o que ele não fornece.
O que ele prova: comunicação confiável à taxa R < C é possível, em princípio, para n suficientemente grande.
O que ele não fornece: construção explícita de código. Um código aleatório de comprimento n suficientemente grande para se aproximar da capacidade tem um livro de código de tamanho M × n bits, onde M e n são astronomicamente grandes. Você não pode armazenar ou calcular com ele.
Códigos corretores de erro vs. Shannon: códigos corretores de erro (Hamming, Reed-Solomon, turbo, LDPC) fornecem construções explícitas e computáveis. Eles sacrificam alguma distância da capacidade em troca de codificadores e decodificadores práticos. Conforme n cresce e mais erros são corrigidos por bloco, códigos práticos podem se aproximar bastante da capacidade.
Exemplo dos satélites espaciais: Voyager e Pioneer usaram códigos corretores de erro poderosos para se comunicarem através de bilhões de quilômetros com 5–20 watts de potência. Comprimentos de bloco longos permitiram corrigir mais erros por bloco, se aproximando da capacidade apesar do ruído enormemente grande da distância.
Avaliação Crítica
Hamming fechou o Capítulo 13 com uma crítica mais ampla das definições em ciência. A fórmula de informação de Shannon mede surpresa semelhante à de uma máquina, não significado humano. O nome 'Teoria da Informação' promete demais. A analogia da rede de pesca: um pescador que captura apenas peixes maiores que a malha da rede conclui que não há peixes menores. As limitações da ferramenta tornam-se as restrições aparentes do mundo.
O Problema com Definições
Hamming usou a teoria da informação para fazer um ponto metodológico maior: as definições iniciais determinam o que você encontra, mais do que a maioria das pessoas percebe.
Shannon escolheu definir 'informação' como surpresa. Essa definição foi produtiva para engenharia de comunicação. Mas ela importou um escopo específico — sistemas semelhantes a máquinas — para uma palavra ('informação') que sugere aplicabilidade universal.
A analogia da rede de pesca: uma rede com malha de 6 polegadas captura apenas peixes grandes. O pescador conclui: tamanho mínimo de peixe é 6 polegadas. A conclusão reflete a ferramenta, não o mundo.
QI como um paralelo: um teste projetado para medir 'inteligência', calibrado para produzir uma distribuição normal, depois usado para definir inteligência. A ferramenta molda o conceito.
Recomendação de Hamming: sempre que encontrar uma definição, pergunte (1) quanto ela concorda com sua intuição anterior? (2) quanto ela distorce? (3) sob quais condições ela foi enquadrada? (4) ela está sendo aplicada agora sob condições diferentes?