un — Géométrie de la Théorie de l'Information

un

invité

1 / ?

retour aux leçons

Le Simplexe de Probabilité

Une distribution de probabilité sur q symboles est un point du simplexe (q−1)-dimensionnel : l'ensemble de tous les vecteurs (p₁, ..., p_q) avec pᵢ ≥ 0 et Σ pᵢ = 1.

Pour q = 2 : le simplexe est un segment de ligne [0,1], paramétré par une seule probabilité p. Pour q = 3 : le simplexe est un triangle équilatéral dans ℝ². Chaque coin est une distribution déterministe (toute la probabilité sur un seul symbole) ; le centre est la distribution uniforme.

L'Entropie H(p) assigne un nombre réel à chaque point du simplexe. La géométrie de la fonction détermine de nombreux résultats fondamentaux.

Concavité

H est concave sur le simplexe : pour toutes deux distributions p et q & tout λ ∈ [0,1] :

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

Un mélange de deux distributions a une entropie au moins aussi grande que la moyenne pondérée de leurs entropies individuelles. Intuition : mélanger deux sources augmente l'incertitude.

Entropy Curve & Channel Capacity

Vérifier la Concavité

Pour l'entropie binaire H(p), la concavité est visible sur le graphique : la courbe se courbe vers le haut, ne tombant jamais en dessous d'une corde quelconque reliant deux points.

Test formel de concavité : la deuxième dérivée H''(p) ≤ 0 partout.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 pour tout p ∈ (0,1)

La deuxième dérivée est strictement négative partout dans l'intérieur : H est strictement concave.

Utilisez le test de la deuxième dérivée pour vérifier que H(p) est concave. À partir de H'(p) = log₂((1−p)/p), dérivez une fois de plus pour obtenir H''(p). Montrez les étapes de la dérivation et confirmez que H''(p) < 0 pour tout p ∈ (0,1). Qu'est-ce que la concavité stricte implique sur la localisation du maximum ?

La Distribution Optimale de Capacité

La capacité du canal est définie comme l'information mutuelle maximale sur toutes les distributions d'entrée p(x) :

C = max_{p(x)} I(X; Y)

où I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).

Pour le canal binaire symétrique avec probabilité d'erreur Q : la distribution d'entrée optimale de capacité est la distribution uniforme p(0) = p(1) = 0.5.

Pourquoi : H(Y) est maximisée par la distribution de sortie uniforme. Avec un BSC, une entrée uniforme donne une sortie uniforme. Toute autre distribution d'entrée rend H(Y) plus petit, réduisant I(X;Y).

Géométriquement : l'information mutuelle I(X;Y) est une fonction concave de la distribution d'entrée p(x) sur le simplexe. Le maximum d'une fonction concave sur un ensemble convexe est atteint en un point unique (le centre, pour un canal symétrique).

L'information mutuelle I(X;Y) est concave en p(x) et convexe en le canal p(y|x). Pour un canal binaire symétrique avec Q = 0.3, calculez la capacité du canal C. Ensuite, expliquez géométriquement pourquoi le maximum de I(X;Y) sur les distributions d'entrée est atteint à p(0) = p(1) = 0.5 pour un canal symétrique.

Divergence de KL

La divergence de Kullback-Leibler (entropie relative) de la distribution q à la distribution p :

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0 toujours (inégalité de Gibbs). D(p || q) = 0 si et seulement si p = q.

D n'est pas une vraie distance : elle est asymétrique (D(p||q) ≠ D(q||p) en général) et ne satisfait pas l'inégalité triangulaire. Mais elle agit comme une mesure de combien p est « loin » de q dans l'espace de probabilité.

La divergence KL apparaît partout en théorie de l'information :

- Information mutuelle : I(X;Y) = D(p(x,y) || p(x)p(y)). L'information mutuelle est la divergence KL entre la distribution jointe et le produit des marginales — combien la jointe est loin de l'indépendance.

- Inégalité de Gibbs : le théorème du codage sans bruit découle directement de D(p || q) ≥ 0.

- Capacité du canal : C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).

Geometry in Probability Space

Calculer la Divergence de KL

Exemple : p = (0.5, 0.5) uniforme binaire, q = (0.8, 0.2) binaire biaisée.

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 bits

Calculez D(q || p) pour p = (0.5, 0.5) et q = (0.8, 0.2). Montrez la formule avec les valeurs substituées. Ensuite, comparez D(q||p) vs. D(p||q) ≈ 0.322 bits. Sont-elles égales ? Qu'est-ce que cette asymétrie signifie géométriquement — pourquoi la divergence KL n'est-elle pas une vraie métrique de distance ?

Capacité du Canal en tant que Distance Géométrique

La capacité du canal a une interprétation géométrique dans l'espace des distributions de probabilité.

Pour un canal p(y|x), définissez la distribution d'entrée optimale p*(x). La capacité satisfait :

C = D(p*(y) || r(y))

où p(y) = Σ p(x) p(y|x) est la distribution de sortie sous l'entrée optimale, et r(y) = argmin_r max_x D(p(y|x) || r(y)) est la distribution de sortie d'information minimale — le point dans l'espace de probabilité de sortie le plus proche (en divergence KL) de toutes les distributions de sortie conditionnelle simultanément.

Ceci est la vue géométrique-informationnelle : la capacité du canal est le rayon de la plus petite boule de divergence KL dans l'espace de distribution de sortie qui contient toutes les distributions conditionnelles p(y|x=0) et p(y|x=1).

Pour le BSC : p(y|x=0) = (1−Q, Q) et p(y|x=1) = (Q, 1−Q). Par symétrie, la distribution de sortie d'information minimale r(y) = (0.5, 0.5). Capacité = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). La formule récupère le résultat standard à partir de la géométrie.

Capacité de la Divergence de KL

Vérifiez la formule géométrique : C = D(p(y|x=0) || r(y)) pour un BSC avec Q = 0.1, r(y) = (0.5, 0.5).

p(y|x=0) = (0.9, 0.1) (envoyer 0, recevoir 0 avec prob 0.9, recevoir 1 avec prob 0.1).

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 bits

Vérification : C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 bits ✓

Pour un BSC avec Q = 0.2, vérifiez la formule de capacité géométrique en calculant D(p(y|x=0) || r(y)) où p(y|x=0) = (0.8, 0.2) et r(y) = (0.5, 0.5). Utilisez log₂(1.6) ≈ 0.678 et log₂(0.4) ≈ −1.322. Ensuite, confirmez que le résultat correspond à C = 1 − H(0.2).

Codage en Taux-Distorsion & les Limites de la Compression

La théorie du codage en taux-distorsion étend la théorie de l'information à la compression avec perte. Au lieu de demander « quel est le nombre minimum de bits pour représenter une source exactement ? » elle demande : « étant donné la tolérance pour une certaine distorsion moyenne D, quel est le taux minimum R(D) bits par symbole ? »

La fonction taux-distorsion R(D) est convexe et décroissante en D : plus de tolérance de distorsion permet des taux plus bas. À D = 0 (sans perte) : R(0) = H(source). Comme D augmente, R(D) → 0.

Géométriquement : R(D) trace une courbe sur le plan (taux, distorsion). Chaque paire réalisable (R, D) se situe sur ou au-dessus de cette courbe. Les points en dessous de la courbe sont impossibles — vous ne pouvez pas compresser en dessous de la limite fondamentale à aucun niveau de distorsion.

Le théorème du codage en taux-distorsion (Shannon, 1959) : pour tout R > R(D), des codes existent réalisant une distorsion moyenne au maximum D. Pour R < R(D) : aucun code ne réalise une distorsion moyenne D. La courbe est une frontière géométrique dans l'espace (taux, distorsion).

La fonction taux-distorsion R(D) est convexe et décroissante. Décrivez en termes géométriques ce que la convexité de R(D) implique sur le coût marginal de réduire la distorsion en vous approchant de D = 0. Ensuite, connectez ceci à un compromis d'ingénierie pratique : pourquoi les formats de compression avec perte (JPEG, MP3) fonctionnent-ils bien au-dessus de D = 0 ?