un — Geometria da Teoria da Informação

un

visitante

1 / ?

voltar às lições

O Simplex de Probabilidade

Uma distribuição de probabilidade sobre q símbolos é um ponto no simplex (q−1)-dimensional: o conjunto de todos os vetores (p₁, ..., p_q) com pᵢ ≥ 0 e Σ pᵢ = 1.

Para q = 2: o simplex é um segmento de reta [0,1], parametrizado por uma única probabilidade p. Para q = 3: o simplex é um triângulo equilátero em ℝ². Cada canto é uma distribuição determinística (toda probabilidade em um símbolo); o centro é a distribuição uniforme.

Entropia H(p) atribui um número real a cada ponto do simplex. A geometria da função determina muitos resultados fundamentais.

Concavidade

H é côncava no simplex: para quaisquer duas distribuições p e q e qualquer λ ∈ [0,1]:

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

Uma mistura de duas distribuições tem entropia pelo menos tão grande quanto a média ponderada de suas entropias individuais. Intuição: misturar duas fontes aumenta a incerteza.

Curva de Entropia & Capacidade de Canal

Verificando Concavidade

Para entropia binária H(p), a concavidade é visível no gráfico: a curva se curva para cima, nunca caindo abaixo de qualquer corda conectando dois pontos.

Teste formal para concavidade: a segunda derivada H''(p) ≤ 0 em todos os lugares.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 para todo p ∈ (0,1)

A segunda derivada é estritamente negativa em todo lugar no interior: H é estritamente côncava.

Use o teste da segunda derivada para verificar que H(p) é côncava. Começando com H'(p) = log₂((1−p)/p), diferencie uma vez mais para obter H''(p). Mostre os passos da diferenciação e confirme H''(p) < 0 para todo p ∈ (0,1). O que a concavidade estrita implica sobre a localização do máximo?

A Distribuição que Atinge Capacidade

Capacidade de canal é definida como a informação mútua máxima sobre todas as distribuições de entrada p(x):

C = max_{p(x)} I(X; Y)

onde I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).

Para o canal binário simétrico com probabilidade de erro Q: a distribuição de entrada que atinge capacidade é a distribuição uniforme p(0) = p(1) = 0,5.

Por que: H(Y) é maximizada pela distribuição de saída uniforme. Com um BSC, uma entrada uniforme produz uma saída uniforme. Qualquer outra distribuição de entrada torna H(Y) menor, reduzindo I(X;Y).

Geometricamente: a informação mútua I(X;Y) é uma função côncava da distribuição de entrada p(x) no simplex. O máximo de uma função côncava em um conjunto convexo é alcançado em um ponto único (o centro, para um canal simétrico).

A informação mútua I(X;Y) é côncava em p(x) e convexa no canal p(y|x). Para um canal binário simétrico com Q = 0,3, calcule a capacidade de canal C. Então explique geometricamente por que o máximo de I(X;Y) sobre distribuições de entrada é alcançado em p(0) = p(1) = 0,5 para um canal simétrico.

Divergência KL

A divergência de Kullback-Leibler (entropia relativa) da distribuição q para a distribuição p:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0 sempre (desigualdade de Gibbs). D(p || q) = 0 se e somente se p = q.

D não é uma verdadeira distância: é assimétrica (D(p||q) ≠ D(q||p) em geral) e não satisfaz a desigualdade triangular. Mas atua como uma medida de quão 'longe' p está de q no espaço de probabilidade.

A divergência KL aparece em toda a teoria da informação:

- Informação mútua: I(X;Y) = D(p(x,y) || p(x)p(y)). A informação mútua é a divergência KL entre a distribuição conjunta e o produto das marginais — quão longe a conjunta está da independência.

- Desigualdade de Gibbs: o teorema da codificação sem ruído segue diretamente de D(p || q) ≥ 0.

- Capacidade de canal: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).

Geometria no Espaço de Probabilidade

Calculando Divergência KL

Exemplo: p = (0,5, 0,5) binário uniforme, q = (0,8, 0,2) binário tendencioso.

D(p || q) = 0,5 log₂(0,5/0,8) + 0,5 log₂(0,5/0,2)

= 0,5 log₂(0,625) + 0,5 log₂(2,5)

≈ 0,5 × (−0,678) + 0,5 × 1,322 ≈ −0,339 + 0,661 ≈ 0,322 bits

Calcule D(q || p) para p = (0,5, 0,5) e q = (0,8, 0,2). Mostre a fórmula com valores substituídos. Então compare D(q||p) vs. D(p||q) ≈ 0,322 bits. Eles são iguais? O que essa assimetria significa geometricamente — por que a divergência KL não é uma métrica de distância verdadeira?

Capacidade de Canal como Distância Geométrica

A capacidade de canal tem uma interpretação geométrica no espaço de distribuições de probabilidade.

Para um canal p(y|x), defina a distribuição de entrada que atinge capacidade p*(x). A capacidade satisfaz:

C = D(p*(y) || r(y))

onde p(y) = Σ p(x) p(y|x) é a distribuição de saída sob a entrada ótima, e r(y) = argmin_r max_x D(p(y|x) || r(y)) é a distribuição de saída de informação mínima — o ponto no espaço de probabilidade de saída mais próximo (em divergência KL) de todas as distribuições de saída condicionais simultaneamente.

Esta é a visão geométrica da informação: a capacidade de canal é o raio da menor bola de divergência KL no espaço de distribuição de saída que contém todas as distribuições condicionais p(y|x=0) e p(y|x=1).

Para o BSC: p(y|x=0) = (1−Q, Q) e p(y|x=1) = (Q, 1−Q). Por simetria, a saída de informação mínima r(y) = (0,5, 0,5). Capacidade = D((1−Q, Q) || (0,5, 0,5)) = 1 − H(Q). A fórmula recupera o resultado padrão da geometria.

Capacidade pela Divergência KL

Verifique a fórmula geométrica: C = D(p(y|x=0) || r(y)) para um BSC com Q = 0,1, r(y) = (0,5, 0,5).

p(y|x=0) = (0,9, 0,1) (envie 0, receba 0 com prob 0,9, receba 1 com prob 0,1).

D((0,9, 0,1) || (0,5, 0,5)) = 0,9 log₂(0,9/0,5) + 0,1 log₂(0,1/0,5)

= 0,9 log₂(1,8) + 0,1 log₂(0,2)

log₂(1,8) ≈ 0,848, log₂(0,2) ≈ −2,322

= 0,9×0,848 + 0,1×(−2,322) ≈ 0,763 − 0,232 ≈ 0,531 bits

Verificação: C = 1 − H(0,1) ≈ 1 − 0,469 = 0,531 bits ✓

Para um BSC com Q = 0,2, verifique a fórmula de capacidade geométrica calculando D(p(y|x=0) || r(y)) onde p(y|x=0) = (0,8, 0,2) e r(y) = (0,5, 0,5). Use log₂(1,6) ≈ 0,678 e log₂(0,4) ≈ −1,322. Então confirme que o resultado corresponde a C = 1 − H(0,2).

Taxa-Distorção & os Limites da Compressão

Teoria de taxa-distorção estende a teoria da informação para compressão com perdas. Em vez de perguntar 'qual é o mínimo de bits para representar uma fonte exatamente?' pergunta: 'dado o desvio para alguma distorção média D, qual é a taxa mínima R(D) bits por símbolo?'

A função de taxa-distorção R(D) é convexa e decrescente em D: maior tolerância de distorção permite taxas mais baixas. Em D = 0 (sem perdas): R(0) = H(fonte). Conforme D aumenta, R(D) → 0.

Geometricamente: R(D) traça uma curva no plano (taxa, distorção). Cada par (R, D) alcançável fica sobre ou acima desta curva. Pontos abaixo da curva são impossíveis — você não pode comprimir abaixo do limite fundamental em nenhum nível de distorção.

O teorema de taxa-distorção (Shannon, 1959): para qualquer R > R(D), códigos existem alcançando distorção esperada no máximo D. Para R < R(D): nenhum código alcança distorção esperada D. A curva é uma fronteira geométrica no espaço (taxa, distorção).

A função de taxa-distorção R(D) é convexa e decrescente. Descreva em termos geométricos o que a convexidade de R(D) implica sobre o custo marginal de reduzir distorção quando você se aproxima de D = 0. Então conecte isso a um compromisso de engenharia prático: por que formatos de compressão com perdas (JPEG, MP3) operam muito acima de D = 0?