un — Teoria da Informação

un

visitante

1 / ?

voltar às lições

O que Shannon Chamou de Informação

Shannon definiu informação medindo surpresa. Uma mensagem com probabilidade p carrega:

I = −log₂(p) bits

Um evento certo (p = 1) carrega 0 bits — sem surpresa, sem informação. Um evento raro (p = 1/1024) carrega 10 bits.

Hamming imediatamente aponta o problema: esta é uma fórmula para medir uma quantidade, não uma definição do conceito. Ela mede surpresa semelhante à de uma máquina, não significado humano. Um estudante que já conhece a resposta a uma pergunta recebe 0 bits da resposta — independentemente de quanto essa resposta é importante para outros.

A fórmula se aplica bem a sistemas telefônicos, rádio, computadores. Ela se aplica mal a comunicação humana, biologia ou significado. O nome preferido de Hamming: 'Teoria da Comunicação', não 'Teoria da Informação'.

Entropia

Para um alfabeto de q símbolos com probabilidades p₁, p₂, ..., p_q, a informação média por símbolo é a entropia:

H = −Σᵢ pᵢ log₂(pᵢ)

H atinge seu máximo quando todas as probabilidades são iguais: H_max = log₂(q) bits. Qualquer distribuição não uniforme tem entropia menor.

Calculando Entropia

Entropia binária: uma fonte com dois símbolos, P(0) = p, P(1) = 1−p.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H(p) = 0 em p = 0 ou p = 1 (completamente previsível). H(p) = 1 bit em p = 0,5 (completamente imprevisível).

Entropia Binária e Capacidade do Canal

Calcule H(p) para p = 0,25. Mostre a fórmula com números substituídos, avalie ambos os termos e declare o resultado em bits. Depois interprete: o que H(0,25) < H(0,5) lhe diz sobre o conteúdo de informação de um lançamento de moeda enviesada versus um lançamento de moeda justa?

Desigualdade de Gibbs e Codificação sem Ruído

Desigualdade de Gibbs: para quaisquer duas distribuições de probabilidade p = {pᵢ} e q = {qᵢ}:

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

com igualdade apenas quando p = q. Isso se baseia no fato elementar de que ln(x) ≤ x − 1 para todo x > 0, com igualdade em x = 1.

Consequência: a entropia H(p) é maximizada quando todos os símbolos são igualmente prováveis. Para q símbolos: H_max = log₂(q).

Teorema da codificação sem ruído: dado um código unicamente decodificável, a desigualdade de Kraft requer Σ 2^(−lᵢ) ≤ 1 onde lᵢ é o comprimento do código para o símbolo i. Pela desigualdade de Gibbs, o comprimento médio do código L = Σ pᵢ lᵢ satisfaz:

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

Você não pode fazer melhor que a entropia em média. A codificação de Huffman atinge L < H + 1.

A desigualdade de Gibbs diz que H(p) ≤ −Σ pᵢ log₂(qᵢ) para qualquer distribuição q. Quando q é a distribuição uniforme qᵢ = 1/q para todo i, o lado direito se simplifica para log₂(q). Mostre essa simplificação algebricamente, depois declare o que ela implica sobre a entropia máxima de um alfabeto de q-símbolos.

Capacidade do Canal

Um canal binário simétrico (BSC) inverte cada bit independentemente com probabilidade de erro Q = 1 − P. A capacidade do BSC — taxa máxima confiável de informação — é:

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

onde H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) é a entropia binária da taxa de erro.

Em Q = 0 (sem erros): C = 1 bit/transmissão (canal perfeito). Em Q = 0,5 (inversão aleatória): C = 0 (o canal não carrega informação). Em Q = 1 (todos os bits invertem): C = 1 (você sabe exatamente o que o remetente enviou, apenas inverta tudo de volta).

C mede a taxa máxima R com a qual você pode transmitir com probabilidade de erro arbitrariamente pequena. Se R < C, tais códigos existem. Se R > C, eles não existem — nenhum código pode superar a capacidade.

Entropia e Capacidade do Canal

Calculando a Capacidade do Canal

Com P = 0,9 (taxa de erro de 10%, Q = 0,1):

C = 1 + 0,9 log₂(0,9) + 0,1 log₂(0,1)

log₂(0,9) ≈ −0,152, log₂(0,1) ≈ −3,322

C ≈ 1 + 0,9×(−0,152) + 0,1×(−3,322) = 1 − 0,137 − 0,332 ≈ 0,531 bits/transmissão

Um canal binário simétrico tem probabilidade de erro Q = 0,2 (P = 0,8). Calcule a capacidade do canal C = 1 + P log₂(P) + Q log₂(Q). Use log₂(0,8) ≈ −0,322 e log₂(0,2) ≈ −2,322. Mostre sua substituição e aritmética, depois interprete: nessa capacidade, qual fração da taxa de bits bruta pode carregar informação real?

O que o Teorema Prova

Teorema fundamental de Shannon: para qualquer taxa R < C, existem códigos de comprimento de bloco n (com n → ∞) que alcançam probabilidade de erro P_E → 0.

A prova usa um argumento surpreendente: códigos aleatórios. Em vez de construir um código específico, Shannon calculou a média de todos os possíveis livros de código aleatório (codificação de lançamento de moeda). Ele mostrou que o erro médio sobre todos os livros de código é pequeno. Se a média é pequena, pelo menos um código atinge erro pequeno.

Análise baseada em esferas: o remetente escolhe a mensagem aᵢ → esfera de raio n(Q + ε₂) ao redor de aᵢ no espaço binário n-dimensional. Para n grande, a palavra recebida bⱼ fica dentro dessa esfera com alta probabilidade. O receptor decodifica para a palavra-código cuja esfera contém bⱼ.

Quatro casos determinam a probabilidade de erro P_E:

``aᵢ em esfera outro aⱼ em esfera resultado sim não correto (sem erro) sim sim ambíguo → erro não sim decodificação errada → erro não não fora de todas as esferas → erro``

Geometria da Informação e Empacotamento de Esferas

O limite em P_E funciona assim: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) para d e ε₂ adequadamente escolhidos. Escolher ε₂ de forma que H(Q+ε₂) < C torna o expoente negativo. Para n grande, o segundo termo → 0.

A Natureza Existencial do Teorema

Hamming foi preciso sobre o que o teorema faz e o que ele não fornece.

O que ele prova: comunicação confiável à taxa R < C é possível, em princípio, para n suficientemente grande.

O que ele não fornece: construção explícita de código. Um código aleatório de comprimento n suficientemente grande para se aproximar da capacidade tem um livro de código de tamanho M × n bits, onde M e n são astronomicamente grandes. Você não pode armazenar ou calcular com ele.

Códigos corretores de erro vs. Shannon: códigos corretores de erro (Hamming, Reed-Solomon, turbo, LDPC) fornecem construções explícitas e computáveis. Eles sacrificam alguma distância da capacidade em troca de codificadores e decodificadores práticos. Conforme n cresce e mais erros são corrigidos por bloco, códigos práticos podem se aproximar bastante da capacidade.

Exemplo dos satélites espaciais: Voyager e Pioneer usaram códigos corretores de erro poderosos para se comunicarem através de bilhões de quilômetros com 5–20 watts de potência. Comprimentos de bloco longos permitiram corrigir mais erros por bloco, se aproximando da capacidade apesar do ruído enormemente grande da distância.

Avaliação Crítica

Hamming fechou o Capítulo 13 com uma crítica mais ampla das definições em ciência. A fórmula de informação de Shannon mede surpresa semelhante à de uma máquina, não significado humano. O nome 'Teoria da Informação' promete demais. A analogia da rede de pesca: um pescador que captura apenas peixes maiores que a malha da rede conclui que não há peixes menores. As limitações da ferramenta tornam-se as restrições aparentes do mundo.

O teorema de Shannon prova que códigos que alcançam erro arbitrariamente pequeno na taxa R < C existem, mas a prova é não-construtiva: ela mostra existência pela média sobre livros de código aleatório, não construindo um código. Explique em suas próprias palavras por que isso importa na prática, e descreva o que a lacuna entre a prova de existência de Shannon e um código corretor de erro funcionando requer que os engenheiros resolvam.

O Problema com Definições

Hamming usou a teoria da informação para fazer um ponto metodológico maior: as definições iniciais determinam o que você encontra, mais do que a maioria das pessoas percebe.

Shannon escolheu definir 'informação' como surpresa. Essa definição foi produtiva para engenharia de comunicação. Mas ela importou um escopo específico — sistemas semelhantes a máquinas — para uma palavra ('informação') que sugere aplicabilidade universal.

A analogia da rede de pesca: uma rede com malha de 6 polegadas captura apenas peixes grandes. O pescador conclui: tamanho mínimo de peixe é 6 polegadas. A conclusão reflete a ferramenta, não o mundo.

QI como um paralelo: um teste projetado para medir 'inteligência', calibrado para produzir uma distribuição normal, depois usado para definir inteligência. A ferramenta molda o conceito.

Recomendação de Hamming: sempre que encontrar uma definição, pergunte (1) quanto ela concorda com sua intuição anterior? (2) quanto ela distorce? (3) sob quais condições ela foi enquadrada? (4) ela está sendo aplicada agora sob condições diferentes?

Aplique a crítica de quatro perguntas de Hamming à definição de informação de Shannon. Para cada uma das quatro perguntas, dê uma resposta específica que mostre que você se engajou com a definição e seus limites.