Ce que Shannon a Appelé l'Information
Shannon a défini l'information en mesurant la surprise. Un message avec probabilité p porte :
I = −log₂(p) bits
Un événement certain (p = 1) porte 0 bits — pas de surprise, pas d'information. Un événement rare (p = 1/1024) porte 10 bits.
Hamming signale immédiatement le problème : c'est une formule pour mesurer une quantité, pas une définition du concept. Elle mesure la surprise de type machine, pas le sens humain. Un étudiant qui connaît déjà la réponse à une question reçoit 0 bits de la réponse — indépendamment de l'importance de la réponse pour les autres.
La formule s'applique bien aux systèmes téléphoniques, à la radio, aux ordinateurs. Elle s'applique mal à la communication humaine, à la biologie ou au sens. Le nom préféré d'Hamming : « Théorie de la Communication », pas « Théorie de l'Information ».
Entropie
Pour un alphabet de q symboles avec probabilités p₁, p₂, ..., p_q, l'information moyenne par symbole est l'entropie :
H = −Σᵢ pᵢ log₂(pᵢ)
H atteint son maximum quand toutes les probabilités sont égales : H_max = log₂(q) bits. Toute distribution non uniforme a une entropie inférieure.
Calculer l'Entropie
Entropie binaire : une source avec deux symboles, P(0) = p, P(1) = 1−p.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H(p) = 0 à p = 0 ou p = 1 (complètement prévisible). H(p) = 1 bit à p = 0.5 (complètement imprévisible).
Inégalité de Gibbs & Codage sans Bruit
Inégalité de Gibbs : pour deux distributions de probabilité quelconques p = {pᵢ} et q = {qᵢ} :
−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)
avec égalité seulement quand p = q. Cela repose sur le fait élémentaire que ln(x) ≤ x − 1 pour tout x > 0, avec égalité à x = 1.
Conséquence : l'entropie H(p) est maximisée quand tous les symboles sont équiprobables. Pour q symboles : H_max = log₂(q).
Théorème du codage sans bruit : étant donné un code uniquement décodable, l'inégalité de Kraft requiert Σ 2^(−lᵢ) ≤ 1 où lᵢ est la longueur du code pour le symbole i. Par l'inégalité de Gibbs, la longueur moyenne du code L = Σ pᵢ lᵢ satisfait :
L ≥ H(p) = −Σ pᵢ log₂(pᵢ)
Vous ne pouvez pas faire mieux que l'entropie en moyenne. Le codage de Huffman atteint L < H + 1.
Capacité du Canal
Un canal binaire symétrique (BSC) retourne chaque bit indépendamment avec probabilité d'erreur Q = 1 − P. La capacité du BSC — le débit maximum d'information fiable — est :
C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)
où H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) est l'entropie binaire du taux d'erreur.
À Q = 0 (pas d'erreurs) : C = 1 bit/transmission (canal parfait). À Q = 0.5 (retournement aléatoire) : C = 0 (le canal ne porte pas d'information). À Q = 1 (tous les bits retournent) : C = 1 (vous savez exactement ce que l'expéditeur a envoyé, il suffit de retourner).
C mesure le débit maximal R auquel vous pouvez transmettre avec une probabilité d'erreur arbitrairement petite. Si R < C, de tels codes existent. Si R > C, ils n'existent pas — aucun code ne peut dépasser la capacité.
Calculer la Capacité du Canal
Avec P = 0.9 (taux d'erreur 10%, Q = 0.1) :
C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)
log₂(0.9) ≈ −0.152, log₂(0.1) ≈ −3.322
C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531 bits/transmission
Ce que le Théorème Prouve
Théorème fondamental de Shannon : pour tout débit R < C, il existe des codes de longueur de bloc n (avec n → ∞) atteignant une probabilité d'erreur P_E → 0.
La preuve utilise un argument surprenant : codes aléatoires. Au lieu de construire un code spécifique, Shannon a fait la moyenne sur tous les livres de code aléatoires possibles (encodage par tirage au sort). Il a montré que l'erreur moyenne sur tous les livres de code est petite. Si la moyenne est petite, au moins un code atteint une petite erreur.
Analyse basée sur les sphères : l'expéditeur choisit le message aᵢ → sphère de rayon n(Q + ε₂) autour de aᵢ dans l'espace binaire n-dimensionnel. Pour n grand, le mot reçu bⱼ se situe à l'intérieur de cette sphère avec une probabilité élevée. Le récepteur décode vers le mot de code dont la sphère contient bⱼ.
Quatre cas déterminent la probabilité d'erreur P_E :
``
aᵢ dans sphère autre aⱼ dans sphère résultat
oui non correct (pas d'erreur)
oui oui ambigu → erreur
non oui mauvais décodage → erreur
non non hors de toutes sphères → erreur
``
La limite sur P_E fonctionne : P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) pour d et ε₂ convenablement choisis. En choisissant ε₂ pour que H(Q+ε₂) < C, on rend l'exposant négatif. Pour n grand, le second terme → 0.
La Nature Existentielle du Théorème
Hamming a été précis sur ce que le théorème fait et ne fait pas.
Ce qu'il prouve : la communication fiable au débit R < C est possible, en principe, pour n assez grand.
Ce qu'il ne fournit pas : la construction explicite du code. Un code aléatoire de longueur n assez grande pour approcher la capacité a un livre de code de taille M × n bits, où M et n sont astronomiquement grands. Vous ne pouvez pas le stocker ni le calculer.
Codes correcteurs d'erreurs vs Shannon : les codes correcteurs (Hamming, Reed-Solomon, turbo, LDPC) fournissent des constructions explicites et calculables. Ils sacrifient une certaine distance par rapport à la capacité en échange d'encodeurs & décodeurs pratiques. Quand n croît et que plus d'erreurs par bloc sont corrigées, les codes pratiques peuvent approcher la capacité de près.
L'exemple des satellites spatiaux : Voyager et Pioneer ont utilisé des codes correcteurs d'erreurs puissants pour communiquer sur des milliards de kilomètres avec 5–20 watts de puissance. Les longues longueurs de bloc ont permis de corriger plus d'erreurs par bloc, se rapprochant de la capacité malgré le bruit énorme de la distance.
Évaluation Critique
Hamming a terminé le Chapitre 13 par une critique plus large des définitions en science. La formule d'information de Shannon mesure la surprise de type machine, pas le sens humain. Le nom « Théorie de l'Information » en promet trop. L'analogie du filet de pêche : un pêcheur qui attrape seulement du poisson plus grand que le maille du filet conclut qu'il n'y a pas de plus petits poissons. Les limitations de l'outil deviennent les contraintes apparentes du monde.
Le Problème avec les Définitions
Hamming a utilisé la théorie de l'information pour formuler un point méthodologique plus large : les définitions initiales déterminent ce que vous trouvez, plus que la plupart des gens ne le réalisent.
Shannon a choisi de définir « l'information » comme la surprise. Cette définition s'est avérée productive pour l'ingénierie des communications. Mais elle a importé une portée spécifique — les systèmes de type machine — dans un mot (« information ») qui suggère une applicabilité universelle.
L'analogie du filet de pêche : un filet avec un maille de 6 pouces attrape seulement de grands poissons. Le pêcheur conclut : la taille minimale des poissons est 6 pouces. La conclusion reflète l'outil, pas le monde.
Le QI comme parallèle : un test conçu pour mesurer l'« intelligence », calibré pour produire une distribution normale, puis utilisé pour définir l'intelligence. L'outil façonne le concept.
La recommandation d'Hamming : chaque fois que vous rencontrez une définition, demandez (1) à quel point s'accorde-t-elle avec votre intuition antérieure ? (2) à quel point distord-elle ? (3) sous quelles conditions a-t-elle été formulée ? (4) est-elle maintenant appliquée sous des conditions différentes ?