English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

Gast
1 / ?

Was Shannon Information nannte

Shannon definierte Information durch Messung von Überraschung. Eine Nachricht mit Wahrscheinlichkeit p trägt:

I = −log₂(p) Bits

Ein sicheres Ereignis (p = 1) trägt 0 Bits — keine Überraschung, keine Information. Ein seltenes Ereignis (p = 1/1024) trägt 10 Bits.

Hemming kennzeichnet sofort das Problem: Dies ist eine Formel zur Messung einer Größe, keine Definition des Konzepts. Sie misst maschinelle Überraschung, nicht menschliche Bedeutung. Ein Schüler, der die Antwort auf eine Frage bereits kennt, erhält 0 Bits aus der Antwort — unabhängig davon, wie wichtig die Antwort für andere ist.

Die Formel funktioniert gut für Telefonsysteme, Radio, Computer. Sie funktioniert schlecht für menschliche Kommunikation, Biologie oder Bedeutung. Hemmings bevorzugter Name: ‚Kommunikationstheorie', nicht ‚Informationstheorie'.

Entropie

Für ein Alphabet von q Symbolen mit Wahrscheinlichkeiten p₁, p₂, ..., p_q ist die durchschnittliche Information pro Symbol die Entropie:

H = −Σᵢ pᵢ log₂(pᵢ)

H erreicht sein Maximum, wenn alle Wahrscheinlichkeiten gleich sind: H_max = log₂(q) Bits. Jede ungleichmäßige Verteilung hat niedrigere Entropie.

Berechnung der Entropie

Binäre Entropie: eine Quelle mit zwei Symbolen, P(0) = p, P(1) = 1−p.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H(p) = 0 bei p = 0 oder p = 1 (völlig vorhersehbar). H(p) = 1 Bit bei p = 0,5 (völlig unvorhersehbar).

Binäre Entropie & Kanalkapazität

Berechnen Sie H(p) für p = 0,25. Zeigen Sie die Formel mit eingesetzten Zahlen, bewerten Sie beide Terme, und geben Sie das Ergebnis in Bits an. Interpretieren Sie dann: Was sagt Ihnen H(0,25) < H(0,5) über den Informationsgehalt eines verzerrten Münzwurfs im Vergleich zu einem fairen Münzwurf?

Gibbs-Ungleichung & verlustfreie Kodierung

Gibbs-Ungleichung: für zwei beliebige Wahrscheinlichkeitsverteilungen p = {pᵢ} und q = {qᵢ}:

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

mit Gleichheit nur wenn p = q. Dies beruht auf der elementaren Tatsache, dass ln(x) ≤ x − 1 für alle x > 0, mit Gleichheit bei x = 1.

Konsequenz: Entropie H(p) ist maximiert, wenn alle Symbole gleich wahrscheinlich sind. Für q Symbole: H_max = log₂(q).

Verlustfreier Kodierungssatz: Bei einem eindeutig dekodierbaren Code benötigt die Kraft-Ungleichung Σ 2^(−lᵢ) ≤ 1, wobei lᵢ die Länge des Codes für Symbol i ist. Nach der Gibbs-Ungleichung erfüllt die durchschnittliche Codelänge L = Σ pᵢ lᵢ:

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

Sie können durchschnittlich nicht besser als Entropie sein. Huffman-Kodierung erreicht L < H + 1.

Die Gibbs-Ungleichung sagt H(p) ≤ −Σ pᵢ log₂(qᵢ) für jede Verteilung q. Wenn q die Gleichverteilung qᵢ = 1/q für alle i ist, vereinfacht sich die rechte Seite zu log₂(q). Zeigen Sie diese Vereinfachung algebraisch, geben Sie dann an, was sie über die maximale Entropie eines q-Symbol-Alphabets impliziert.

Kanalkapazität

Ein binärer symmetrischer Kanal (BSC) flippt jedes Bit unabhängig mit Fehlerwahrscheinlichkeit Q = 1 − P. Die Kapazität des BSC — maximale zuverlässige Informationsrate — ist:

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

wobei H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) die binäre Entropie der Fehlerrate ist.

Bei Q = 0 (keine Fehler): C = 1 Bit/Übertragung (perfekter Kanal). Bei Q = 0,5 (zufälliges Flippen): C = 0 (Kanal trägt keine Information). Bei Q = 1 (alle Bits flippen): C = 1 (Sie wissen genau, was der Sender gesendet hat, flippen Sie einfach alles zurück).

C misst die maximale Rate R, mit der Sie mit beliebig kleiner Fehlerwahrscheinlichkeit übertragen können. Wenn R < C, existieren solche Codes. Wenn R > C, existieren sie nicht — kein Code kann die Kapazität übertreffen.

Entropie & Kanalkapazität

Berechnung der Kanalkapazität

Mit P = 0,9 (10% Fehlerrate, Q = 0,1):

C = 1 + 0,9 log₂(0,9) + 0,1 log₂(0,1)

log₂(0,9) ≈ −0,152, log₂(0,1) ≈ −3,322

C ≈ 1 + 0,9×(−0,152) + 0,1×(−3,322) = 1 − 0,137 − 0,332 ≈ 0,531 Bits/Übertragung

Ein binärer symmetrischer Kanal hat Fehlerwahrscheinlichkeit Q = 0,2 (P = 0,8). Berechnen Sie die Kanalkapazität C = 1 + P log₂(P) + Q log₂(Q). Verwenden Sie log₂(0,8) ≈ −0,322 und log₂(0,2) ≈ −2,322. Zeigen Sie Ihre Ersetzung und Arithmetik, dann interpretieren Sie: Bei dieser Kapazität, welcher Bruchteil der rohen Bitrate kann tatsächliche Information tragen?

Was der Satz beweist

Shannons fundamentaler Satz: Für jede Rate R < C existieren Codes der Blocklänge n (mit n → ∞), die Fehlerwahrscheinlichkeit P_E → 0 erreichen.

Der Beweis verwendet ein überraschendes Argument: Zufallscodes. Statt einen spezifischen Code zu konstruieren, mittelt Shannon über alle möglichen zufälligen Codebücher (Münzwurf-Kodierung). Er zeigte, dass der Durchschnittsfehler über alle Codebücher klein ist. Wenn der Durchschnitt klein ist, erreicht mindestens ein Code kleinen Fehler.

Sphären-basierte Analyse: Der Sender wählt Nachricht aᵢ → Sphäre mit Radius n(Q + ε₂) um aᵢ im n-dimensionalen Binärraum. Für große n liegt das empfangene Wort bⱼ mit hoher Wahrscheinlichkeit in dieser Sphäre. Der Empfänger dekodiert zum Codewort, dessen Sphäre bⱼ enthält.

Vier Fälle bestimmen Fehlerwahrscheinlichkeit P_E:

`` aᵢ in Sphäre andere aⱼ in Sphäre Ergebnis ja nein richtig (kein Fehler) ja ja mehrdeutig → Fehler nein ja falsches Dekodieren → Fehler nein nein außerhalb aller Sphären → Fehler ``

Informationsgeometrie & Sphärenpacking

Die Grenze auf P_E funktioniert wie folgt: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) für geeignet gewähltes d und ε₂. Wähle ε₂ so dass H(Q+ε₂) < C macht den Exponenten negativ. Für große n geht der zweite Term → 0.

Die existenzielle Natur des Satzes

Hemming war präzise darüber, was der Satz macht und nicht macht.

Was er beweist: Zuverlässige Kommunikation mit Rate R < C ist im Prinzip möglich, für ausreichend großes n.

Was er nicht bietet: Explizite Code-Konstruktion. Ein Zufallscode der Länge n, der groß genug ist, um sich der Kapazität zu nähern, hat ein Codebuch der Größe M × n Bits, wobei sowohl M als auch n astronomisch groß sind. Sie können nicht damit speichern oder rechnen.

Fehlerkorrigierende Codes vs. Shannon: Fehlerkorrigierende Codes (Hemming, Reed-Solomon, Turbo, LDPC) bieten explizite, berechenbare Konstruktionen. Sie opfern einen gewissen Abstand von der Kapazität, um praktische Kodierer & Dekodierer zu erhalten. Mit wachsendem n und mehr korrigierten Fehlern pro Block können praktische Codes sich der Kapazität nähern.

Das Weltraum-Satelliten-Beispiel: Voyager & Pioneer verwendeten leistungsstarke fehlerkorrigierende Codes, um über Milliarden von Meilen auf 5–20 Watt Leistung zu kommunizieren. Lange Blocklängen ermöglichten mehr Fehler pro Block, die korrigiert werden, wobei sie trotz des enormen Rauschens der Distanz näher an die Kapazität herankamen.

Kritische Bewertung

Hemming schloss Kapitel 13 mit einer umfassenderen Kritik an Definitionen in der Wissenschaft. Shannons Informationsformel misst maschinelle Überraschung, nicht menschliche Bedeutung. Der Name ‚Informationstheorie' verspricht zu viel. Die Fischernetz-Analogie: Ein Fischer, der nur Fische größer als die Maschenweite des Netzes fängt, schließt, dass es keine kleineren Fische gibt. Die Grenzen des Werkzeugs werden zu den scheinbaren Grenzen der Welt.

Shannons Satz beweist, dass Codes, die beliebig kleine Fehler mit Rate R < C erreichen, existieren, aber der Beweis ist nicht konstruktiv: Er zeigt Existenz durch Mittelung über Zufallscodes, nicht durch Konstruktion eines Codes. Erklären Sie in Ihren eigenen Worten, warum dies praktisch wichtig ist, und beschreiben Sie, welche Lücke zwischen Shannons Existenzbeweis und einem funktionierenden fehlerkorrigierenden Code Ingenieure lösen müssen.

Das Problem mit Definitionen

Hemming verwendete Informationstheorie, um einen größeren methodologischen Punkt zu machen: anfängliche Definitionen bestimmen, was Sie finden, mehr als die meisten Menschen verstehen.

Shannon wählte, Information als Überraschung zu definieren. Diese Definition war produktiv für Kommunikationstechnik. Aber sie importierte einen spezifischen Umfang — maschinenartige Systeme — in ein Wort (‚Information'), das universelle Anwendbarkeit suggeriert.

Die Fischernetze-Analogie: Ein Netz mit 6-Zoll-Masche fängt nur große Fische. Der Fischer schließt: minimale Fischgröße ist 6 Zoll. Die Schlussfolgerung spiegelt das Werkzeug wider, nicht die Welt.

IQ als Parallele: Ein Test entworfen, um ‚Intelligenz' zu messen, kalibriert, um eine Normalverteilung zu produzieren, dann verwendet, um Intelligenz zu definieren. Das Werkzeug formt das Konzept.

Hemmings Empfehlung: Wann immer Sie auf eine Definition treffen, fragen Sie (1) wie viel stimmt sie mit Ihrer vorherigen Intuition überein? (2) wie viel verzerrt sie? (3) unter welchen Bedingungen wurde sie formuliert? (4) wird sie jetzt unter verschiedenen Bedingungen angewendet?

Wenden Sie Hemmings vierfach-Kritik auf Shannons Definition von Information an. Geben Sie für jede der vier Fragen eine spezifische Antwort, die zeigt, dass Sie sich sowohl mit der Definition als auch mit ihren Grenzen auseinandergesetzt haben.