O Simplex de Probabilidade
Uma distribuição de probabilidade sobre q símbolos é um ponto no simplex (q−1)-dimensional: o conjunto de todos os vetores (p₁, ..., p_q) com pᵢ ≥ 0 e Σ pᵢ = 1.
Para q = 2: o simplex é um segmento de reta [0,1], parametrizado por uma única probabilidade p. Para q = 3: o simplex é um triângulo equilátero em ℝ². Cada canto é uma distribuição determinística (toda probabilidade em um símbolo); o centro é a distribuição uniforme.
Entropia H(p) atribui um número real a cada ponto do simplex. A geometria da função determina muitos resultados fundamentais.
Concavidade
H é côncava no simplex: para quaisquer duas distribuições p e q e qualquer λ ∈ [0,1]:
H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)
Uma mistura de duas distribuições tem entropia pelo menos tão grande quanto a média ponderada de suas entropias individuais. Intuição: misturar duas fontes aumenta a incerteza.
Verificando Concavidade
Para entropia binária H(p), a concavidade é visível no gráfico: a curva se curva para cima, nunca caindo abaixo de qualquer corda conectando dois pontos.
Teste formal para concavidade: a segunda derivada H''(p) ≤ 0 em todos os lugares.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)
H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 para todo p ∈ (0,1)
A segunda derivada é estritamente negativa em todo lugar no interior: H é estritamente côncava.
A Distribuição que Atinge Capacidade
Capacidade de canal é definida como a informação mútua máxima sobre todas as distribuições de entrada p(x):
C = max_{p(x)} I(X; Y)
onde I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).
Para o canal binário simétrico com probabilidade de erro Q: a distribuição de entrada que atinge capacidade é a distribuição uniforme p(0) = p(1) = 0,5.
Por que: H(Y) é maximizada pela distribuição de saída uniforme. Com um BSC, uma entrada uniforme produz uma saída uniforme. Qualquer outra distribuição de entrada torna H(Y) menor, reduzindo I(X;Y).
Geometricamente: a informação mútua I(X;Y) é uma função côncava da distribuição de entrada p(x) no simplex. O máximo de uma função côncava em um conjunto convexo é alcançado em um ponto único (o centro, para um canal simétrico).
Divergência KL
A divergência de Kullback-Leibler (entropia relativa) da distribuição q para a distribuição p:
D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)
D(p || q) ≥ 0 sempre (desigualdade de Gibbs). D(p || q) = 0 se e somente se p = q.
D não é uma verdadeira distância: é assimétrica (D(p||q) ≠ D(q||p) em geral) e não satisfaz a desigualdade triangular. Mas atua como uma medida de quão 'longe' p está de q no espaço de probabilidade.
A divergência KL aparece em toda a teoria da informação:
- Informação mútua: I(X;Y) = D(p(x,y) || p(x)p(y)). A informação mútua é a divergência KL entre a distribuição conjunta e o produto das marginais — quão longe a conjunta está da independência.
- Desigualdade de Gibbs: o teorema da codificação sem ruído segue diretamente de D(p || q) ≥ 0.
- Capacidade de canal: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).
Calculando Divergência KL
Exemplo: p = (0,5, 0,5) binário uniforme, q = (0,8, 0,2) binário tendencioso.
D(p || q) = 0,5 log₂(0,5/0,8) + 0,5 log₂(0,5/0,2)
= 0,5 log₂(0,625) + 0,5 log₂(2,5)
≈ 0,5 × (−0,678) + 0,5 × 1,322 ≈ −0,339 + 0,661 ≈ 0,322 bits
Capacidade de Canal como Distância Geométrica
A capacidade de canal tem uma interpretação geométrica no espaço de distribuições de probabilidade.
Para um canal p(y|x), defina a distribuição de entrada que atinge capacidade p*(x). A capacidade satisfaz:
C = D(p*(y) || r(y))
onde p(y) = Σ p(x) p(y|x) é a distribuição de saída sob a entrada ótima, e r(y) = argmin_r max_x D(p(y|x) || r(y)) é a distribuição de saída de informação mínima — o ponto no espaço de probabilidade de saída mais próximo (em divergência KL) de todas as distribuições de saída condicionais simultaneamente.
Esta é a visão geométrica da informação: a capacidade de canal é o raio da menor bola de divergência KL no espaço de distribuição de saída que contém todas as distribuições condicionais p(y|x=0) e p(y|x=1).
Para o BSC: p(y|x=0) = (1−Q, Q) e p(y|x=1) = (Q, 1−Q). Por simetria, a saída de informação mínima r(y) = (0,5, 0,5). Capacidade = D((1−Q, Q) || (0,5, 0,5)) = 1 − H(Q). A fórmula recupera o resultado padrão da geometria.
Capacidade pela Divergência KL
Verifique a fórmula geométrica: C = D(p(y|x=0) || r(y)) para um BSC com Q = 0,1, r(y) = (0,5, 0,5).
p(y|x=0) = (0,9, 0,1) (envie 0, receba 0 com prob 0,9, receba 1 com prob 0,1).
D((0,9, 0,1) || (0,5, 0,5)) = 0,9 log₂(0,9/0,5) + 0,1 log₂(0,1/0,5)
= 0,9 log₂(1,8) + 0,1 log₂(0,2)
log₂(1,8) ≈ 0,848, log₂(0,2) ≈ −2,322
= 0,9×0,848 + 0,1×(−2,322) ≈ 0,763 − 0,232 ≈ 0,531 bits
Verificação: C = 1 − H(0,1) ≈ 1 − 0,469 = 0,531 bits ✓
Taxa-Distorção & os Limites da Compressão
Teoria de taxa-distorção estende a teoria da informação para compressão com perdas. Em vez de perguntar 'qual é o mínimo de bits para representar uma fonte exatamente?' pergunta: 'dado o desvio para alguma distorção média D, qual é a taxa mínima R(D) bits por símbolo?'
A função de taxa-distorção R(D) é convexa e decrescente em D: maior tolerância de distorção permite taxas mais baixas. Em D = 0 (sem perdas): R(0) = H(fonte). Conforme D aumenta, R(D) → 0.
Geometricamente: R(D) traça uma curva no plano (taxa, distorção). Cada par (R, D) alcançável fica sobre ou acima desta curva. Pontos abaixo da curva são impossíveis — você não pode comprimir abaixo do limite fundamental em nenhum nível de distorção.
O teorema de taxa-distorção (Shannon, 1959): para qualquer R > R(D), códigos existem alcançando distorção esperada no máximo D. Para R < R(D): nenhum código alcança distorção esperada D. A curva é uma fronteira geométrica no espaço (taxa, distorção).