Was Shannon Information nannte
Shannon definierte Information durch Messung von Überraschung. Eine Nachricht mit Wahrscheinlichkeit p trägt:
I = −log₂(p) Bits
Ein sicheres Ereignis (p = 1) trägt 0 Bits — keine Überraschung, keine Information. Ein seltenes Ereignis (p = 1/1024) trägt 10 Bits.
Hemming kennzeichnet sofort das Problem: Dies ist eine Formel zur Messung einer Größe, keine Definition des Konzepts. Sie misst maschinelle Überraschung, nicht menschliche Bedeutung. Ein Schüler, der die Antwort auf eine Frage bereits kennt, erhält 0 Bits aus der Antwort — unabhängig davon, wie wichtig die Antwort für andere ist.
Die Formel funktioniert gut für Telefonsysteme, Radio, Computer. Sie funktioniert schlecht für menschliche Kommunikation, Biologie oder Bedeutung. Hemmings bevorzugter Name: ‚Kommunikationstheorie', nicht ‚Informationstheorie'.
Entropie
Für ein Alphabet von q Symbolen mit Wahrscheinlichkeiten p₁, p₂, ..., p_q ist die durchschnittliche Information pro Symbol die Entropie:
H = −Σᵢ pᵢ log₂(pᵢ)
H erreicht sein Maximum, wenn alle Wahrscheinlichkeiten gleich sind: H_max = log₂(q) Bits. Jede ungleichmäßige Verteilung hat niedrigere Entropie.
Berechnung der Entropie
Binäre Entropie: eine Quelle mit zwei Symbolen, P(0) = p, P(1) = 1−p.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H(p) = 0 bei p = 0 oder p = 1 (völlig vorhersehbar). H(p) = 1 Bit bei p = 0,5 (völlig unvorhersehbar).
Gibbs-Ungleichung & verlustfreie Kodierung
Gibbs-Ungleichung: für zwei beliebige Wahrscheinlichkeitsverteilungen p = {pᵢ} und q = {qᵢ}:
−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)
mit Gleichheit nur wenn p = q. Dies beruht auf der elementaren Tatsache, dass ln(x) ≤ x − 1 für alle x > 0, mit Gleichheit bei x = 1.
Konsequenz: Entropie H(p) ist maximiert, wenn alle Symbole gleich wahrscheinlich sind. Für q Symbole: H_max = log₂(q).
Verlustfreier Kodierungssatz: Bei einem eindeutig dekodierbaren Code benötigt die Kraft-Ungleichung Σ 2^(−lᵢ) ≤ 1, wobei lᵢ die Länge des Codes für Symbol i ist. Nach der Gibbs-Ungleichung erfüllt die durchschnittliche Codelänge L = Σ pᵢ lᵢ:
L ≥ H(p) = −Σ pᵢ log₂(pᵢ)
Sie können durchschnittlich nicht besser als Entropie sein. Huffman-Kodierung erreicht L < H + 1.
Kanalkapazität
Ein binärer symmetrischer Kanal (BSC) flippt jedes Bit unabhängig mit Fehlerwahrscheinlichkeit Q = 1 − P. Die Kapazität des BSC — maximale zuverlässige Informationsrate — ist:
C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)
wobei H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) die binäre Entropie der Fehlerrate ist.
Bei Q = 0 (keine Fehler): C = 1 Bit/Übertragung (perfekter Kanal). Bei Q = 0,5 (zufälliges Flippen): C = 0 (Kanal trägt keine Information). Bei Q = 1 (alle Bits flippen): C = 1 (Sie wissen genau, was der Sender gesendet hat, flippen Sie einfach alles zurück).
C misst die maximale Rate R, mit der Sie mit beliebig kleiner Fehlerwahrscheinlichkeit übertragen können. Wenn R < C, existieren solche Codes. Wenn R > C, existieren sie nicht — kein Code kann die Kapazität übertreffen.
Berechnung der Kanalkapazität
Mit P = 0,9 (10% Fehlerrate, Q = 0,1):
C = 1 + 0,9 log₂(0,9) + 0,1 log₂(0,1)
log₂(0,9) ≈ −0,152, log₂(0,1) ≈ −3,322
C ≈ 1 + 0,9×(−0,152) + 0,1×(−3,322) = 1 − 0,137 − 0,332 ≈ 0,531 Bits/Übertragung
Was der Satz beweist
Shannons fundamentaler Satz: Für jede Rate R < C existieren Codes der Blocklänge n (mit n → ∞), die Fehlerwahrscheinlichkeit P_E → 0 erreichen.
Der Beweis verwendet ein überraschendes Argument: Zufallscodes. Statt einen spezifischen Code zu konstruieren, mittelt Shannon über alle möglichen zufälligen Codebücher (Münzwurf-Kodierung). Er zeigte, dass der Durchschnittsfehler über alle Codebücher klein ist. Wenn der Durchschnitt klein ist, erreicht mindestens ein Code kleinen Fehler.
Sphären-basierte Analyse: Der Sender wählt Nachricht aᵢ → Sphäre mit Radius n(Q + ε₂) um aᵢ im n-dimensionalen Binärraum. Für große n liegt das empfangene Wort bⱼ mit hoher Wahrscheinlichkeit in dieser Sphäre. Der Empfänger dekodiert zum Codewort, dessen Sphäre bⱼ enthält.
Vier Fälle bestimmen Fehlerwahrscheinlichkeit P_E:
``
aᵢ in Sphäre andere aⱼ in Sphäre Ergebnis
ja nein richtig (kein Fehler)
ja ja mehrdeutig → Fehler
nein ja falsches Dekodieren → Fehler
nein nein außerhalb aller Sphären → Fehler
``
Die Grenze auf P_E funktioniert wie folgt: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) für geeignet gewähltes d und ε₂. Wähle ε₂ so dass H(Q+ε₂) < C macht den Exponenten negativ. Für große n geht der zweite Term → 0.
Die existenzielle Natur des Satzes
Hemming war präzise darüber, was der Satz macht und nicht macht.
Was er beweist: Zuverlässige Kommunikation mit Rate R < C ist im Prinzip möglich, für ausreichend großes n.
Was er nicht bietet: Explizite Code-Konstruktion. Ein Zufallscode der Länge n, der groß genug ist, um sich der Kapazität zu nähern, hat ein Codebuch der Größe M × n Bits, wobei sowohl M als auch n astronomisch groß sind. Sie können nicht damit speichern oder rechnen.
Fehlerkorrigierende Codes vs. Shannon: Fehlerkorrigierende Codes (Hemming, Reed-Solomon, Turbo, LDPC) bieten explizite, berechenbare Konstruktionen. Sie opfern einen gewissen Abstand von der Kapazität, um praktische Kodierer & Dekodierer zu erhalten. Mit wachsendem n und mehr korrigierten Fehlern pro Block können praktische Codes sich der Kapazität nähern.
Das Weltraum-Satelliten-Beispiel: Voyager & Pioneer verwendeten leistungsstarke fehlerkorrigierende Codes, um über Milliarden von Meilen auf 5–20 Watt Leistung zu kommunizieren. Lange Blocklängen ermöglichten mehr Fehler pro Block, die korrigiert werden, wobei sie trotz des enormen Rauschens der Distanz näher an die Kapazität herankamen.
Kritische Bewertung
Hemming schloss Kapitel 13 mit einer umfassenderen Kritik an Definitionen in der Wissenschaft. Shannons Informationsformel misst maschinelle Überraschung, nicht menschliche Bedeutung. Der Name ‚Informationstheorie' verspricht zu viel. Die Fischernetz-Analogie: Ein Fischer, der nur Fische größer als die Maschenweite des Netzes fängt, schließt, dass es keine kleineren Fische gibt. Die Grenzen des Werkzeugs werden zu den scheinbaren Grenzen der Welt.
Das Problem mit Definitionen
Hemming verwendete Informationstheorie, um einen größeren methodologischen Punkt zu machen: anfängliche Definitionen bestimmen, was Sie finden, mehr als die meisten Menschen verstehen.
Shannon wählte, Information als Überraschung zu definieren. Diese Definition war produktiv für Kommunikationstechnik. Aber sie importierte einen spezifischen Umfang — maschinenartige Systeme — in ein Wort (‚Information'), das universelle Anwendbarkeit suggeriert.
Die Fischernetze-Analogie: Ein Netz mit 6-Zoll-Masche fängt nur große Fische. Der Fischer schließt: minimale Fischgröße ist 6 Zoll. Die Schlussfolgerung spiegelt das Werkzeug wider, nicht die Welt.
IQ als Parallele: Ein Test entworfen, um ‚Intelligenz' zu messen, kalibriert, um eine Normalverteilung zu produzieren, dann verwendet, um Intelligenz zu definieren. Das Werkzeug formt das Konzept.
Hemmings Empfehlung: Wann immer Sie auf eine Definition treffen, fragen Sie (1) wie viel stimmt sie mit Ihrer vorherigen Intuition überein? (2) wie viel verzerrt sie? (3) unter welchen Bedingungen wurde sie formuliert? (4) wird sie jetzt unter verschiedenen Bedingungen angewendet?