un — Théorie de l'information

un

invité

1 / ?

retour aux leçons

Ce que Shannon a Appelé l'Information

Shannon a défini l'information en mesurant la surprise. Un message avec probabilité p porte :

I = −log₂(p) bits

Un événement certain (p = 1) porte 0 bits — pas de surprise, pas d'information. Un événement rare (p = 1/1024) porte 10 bits.

Hamming signale immédiatement le problème : c'est une formule pour mesurer une quantité, pas une définition du concept. Elle mesure la surprise de type machine, pas le sens humain. Un étudiant qui connaît déjà la réponse à une question reçoit 0 bits de la réponse — indépendamment de l'importance de la réponse pour les autres.

La formule s'applique bien aux systèmes téléphoniques, à la radio, aux ordinateurs. Elle s'applique mal à la communication humaine, à la biologie ou au sens. Le nom préféré d'Hamming : « Théorie de la Communication », pas « Théorie de l'Information ».

Entropie

Pour un alphabet de q symboles avec probabilités p₁, p₂, ..., p_q, l'information moyenne par symbole est l'entropie :

H = −Σᵢ pᵢ log₂(pᵢ)

H atteint son maximum quand toutes les probabilités sont égales : H_max = log₂(q) bits. Toute distribution non uniforme a une entropie inférieure.

Calculer l'Entropie

Entropie binaire : une source avec deux symboles, P(0) = p, P(1) = 1−p.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H(p) = 0 à p = 0 ou p = 1 (complètement prévisible). H(p) = 1 bit à p = 0.5 (complètement imprévisible).

Entropie Binaire & Capacité du Canal

Calculez H(p) pour p = 0.25. Montrez la formule avec les nombres substitués, évaluez les deux termes, et énoncez le résultat en bits. Puis interprétez : que vous dit H(0.25) < H(0.5) sur le contenu informatif d'un tirage au sort biaisé par rapport à un tirage au sort équitable ?

Inégalité de Gibbs & Codage sans Bruit

Inégalité de Gibbs : pour deux distributions de probabilité quelconques p = {pᵢ} et q = {qᵢ} :

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

avec égalité seulement quand p = q. Cela repose sur le fait élémentaire que ln(x) ≤ x − 1 pour tout x > 0, avec égalité à x = 1.

Conséquence : l'entropie H(p) est maximisée quand tous les symboles sont équiprobables. Pour q symboles : H_max = log₂(q).

Théorème du codage sans bruit : étant donné un code uniquement décodable, l'inégalité de Kraft requiert Σ 2^(−lᵢ) ≤ 1 où lᵢ est la longueur du code pour le symbole i. Par l'inégalité de Gibbs, la longueur moyenne du code L = Σ pᵢ lᵢ satisfait :

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

Vous ne pouvez pas faire mieux que l'entropie en moyenne. Le codage de Huffman atteint L < H + 1.

L'inégalité de Gibbs dit H(p) ≤ −Σ pᵢ log₂(qᵢ) pour toute distribution q. Quand q est la distribution uniforme qᵢ = 1/q pour tous les i, le côté droit se simplifie en log₂(q). Montrez cette simplification algébriquement, puis énoncez ce qu'elle implique sur l'entropie maximale d'un alphabet à q symboles.

Capacité du Canal

Un canal binaire symétrique (BSC) retourne chaque bit indépendamment avec probabilité d'erreur Q = 1 − P. La capacité du BSC — le débit maximum d'information fiable — est :

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

où H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) est l'entropie binaire du taux d'erreur.

À Q = 0 (pas d'erreurs) : C = 1 bit/transmission (canal parfait). À Q = 0.5 (retournement aléatoire) : C = 0 (le canal ne porte pas d'information). À Q = 1 (tous les bits retournent) : C = 1 (vous savez exactement ce que l'expéditeur a envoyé, il suffit de retourner).

C mesure le débit maximal R auquel vous pouvez transmettre avec une probabilité d'erreur arbitrairement petite. Si R < C, de tels codes existent. Si R > C, ils n'existent pas — aucun code ne peut dépasser la capacité.

Entropie & Capacité du Canal

Calculer la Capacité du Canal

Avec P = 0.9 (taux d'erreur 10%, Q = 0.1) :

C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)

log₂(0.9) ≈ −0.152, log₂(0.1) ≈ −3.322

C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531 bits/transmission

Un canal binaire symétrique a une probabilité d'erreur Q = 0.2 (P = 0.8). Calculez la capacité du canal C = 1 + P log₂(P) + Q log₂(Q). Utilisez log₂(0.8) ≈ −0.322 et log₂(0.2) ≈ −2.322. Montrez votre substitution et votre arithmétique, puis interprétez : à cette capacité, quelle fraction du débit de bits brut peut porter l'information réelle ?

Ce que le Théorème Prouve

Théorème fondamental de Shannon : pour tout débit R < C, il existe des codes de longueur de bloc n (avec n → ∞) atteignant une probabilité d'erreur P_E → 0.

La preuve utilise un argument surprenant : codes aléatoires. Au lieu de construire un code spécifique, Shannon a fait la moyenne sur tous les livres de code aléatoires possibles (encodage par tirage au sort). Il a montré que l'erreur moyenne sur tous les livres de code est petite. Si la moyenne est petite, au moins un code atteint une petite erreur.

Analyse basée sur les sphères : l'expéditeur choisit le message aᵢ → sphère de rayon n(Q + ε₂) autour de aᵢ dans l'espace binaire n-dimensionnel. Pour n grand, le mot reçu bⱼ se situe à l'intérieur de cette sphère avec une probabilité élevée. Le récepteur décode vers le mot de code dont la sphère contient bⱼ.

Quatre cas déterminent la probabilité d'erreur P_E :

``aᵢ dans sphère autre aⱼ dans sphère résultat oui non correct (pas d'erreur) oui oui ambigu → erreur non oui mauvais décodage → erreur non non hors de toutes sphères → erreur``

Géométrie de l'Information & Empaquetage de Sphères

La limite sur P_E fonctionne : P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) pour d et ε₂ convenablement choisis. En choisissant ε₂ pour que H(Q+ε₂) < C, on rend l'exposant négatif. Pour n grand, le second terme → 0.

La Nature Existentielle du Théorème

Hamming a été précis sur ce que le théorème fait et ne fait pas.

Ce qu'il prouve : la communication fiable au débit R < C est possible, en principe, pour n assez grand.

Ce qu'il ne fournit pas : la construction explicite du code. Un code aléatoire de longueur n assez grande pour approcher la capacité a un livre de code de taille M × n bits, où M et n sont astronomiquement grands. Vous ne pouvez pas le stocker ni le calculer.

Codes correcteurs d'erreurs vs Shannon : les codes correcteurs (Hamming, Reed-Solomon, turbo, LDPC) fournissent des constructions explicites et calculables. Ils sacrifient une certaine distance par rapport à la capacité en échange d'encodeurs & décodeurs pratiques. Quand n croît et que plus d'erreurs par bloc sont corrigées, les codes pratiques peuvent approcher la capacité de près.

L'exemple des satellites spatiaux : Voyager et Pioneer ont utilisé des codes correcteurs d'erreurs puissants pour communiquer sur des milliards de kilomètres avec 5–20 watts de puissance. Les longues longueurs de bloc ont permis de corriger plus d'erreurs par bloc, se rapprochant de la capacité malgré le bruit énorme de la distance.

Évaluation Critique

Hamming a terminé le Chapitre 13 par une critique plus large des définitions en science. La formule d'information de Shannon mesure la surprise de type machine, pas le sens humain. Le nom « Théorie de l'Information » en promet trop. L'analogie du filet de pêche : un pêcheur qui attrape seulement du poisson plus grand que le maille du filet conclut qu'il n'y a pas de plus petits poissons. Les limitations de l'outil deviennent les contraintes apparentes du monde.

Le théorème de Shannon prouve que des codes atteignant une erreur arbitrairement petite au débit R < C existent, mais la preuve n'est pas constructive : elle montre l'existence en moyennant sur des livres de code aléatoires, pas en construisant un code. Expliquez en vos propres termes pourquoi cela importe en pratique, et décrivez ce que l'écart entre la preuve d'existence de Shannon et un code correcteur d'erreurs fonctionnel oblige les ingénieurs à résoudre.

Le Problème avec les Définitions

Hamming a utilisé la théorie de l'information pour formuler un point méthodologique plus large : les définitions initiales déterminent ce que vous trouvez, plus que la plupart des gens ne le réalisent.

Shannon a choisi de définir « l'information » comme la surprise. Cette définition s'est avérée productive pour l'ingénierie des communications. Mais elle a importé une portée spécifique — les systèmes de type machine — dans un mot (« information ») qui suggère une applicabilité universelle.

L'analogie du filet de pêche : un filet avec un maille de 6 pouces attrape seulement de grands poissons. Le pêcheur conclut : la taille minimale des poissons est 6 pouces. La conclusion reflète l'outil, pas le monde.

Le QI comme parallèle : un test conçu pour mesurer l'« intelligence », calibré pour produire une distribution normale, puis utilisé pour définir l'intelligence. L'outil façonne le concept.

La recommandation d'Hamming : chaque fois que vous rencontrez une définition, demandez (1) à quel point s'accorde-t-elle avec votre intuition antérieure ? (2) à quel point distord-elle ? (3) sous quelles conditions a-t-elle été formulée ? (4) est-elle maintenant appliquée sous des conditions différentes ?

Appliquez la critique en quatre questions d'Hamming à la définition de l'information par Shannon. Pour chacune des quatre questions, donnez une réponse spécifique qui montre que vous vous êtes engagé avec la définition et ses limites.