un — Informationsteori

un

gäst

1 / ?

Vad Shannon kallade information

Shannon definierade information genom att mäta överraskning. Ett meddelande med sannolikhet p bär:

I = −log₂(p) bitar

En säker händelse (p = 1) bär 0 bitar — ingen överraskning, ingen information. En sällsynt händelse (p = 1/1024) bär 10 bitar.

Humming flaggar omedelbar problemet: detta är en formel för att mäta en storhet, inte en definition av konceptet. Det mäter maskinliknande överraskning, inte mänsklig mening. En student som redan vet svaret på en fråga får 0 bitar från svaret — oavsett hur viktigt svaret är för andra.

Formeln fungerar väl för telefonsystem, radio, datorer. Den fungerar dåligt för mänsklig kommunikation, biologi eller mening. Hummings föredragna namn: 'Kommunikationsteori', inte 'Informationsteori.'

Entropi

För ett alfabet av q symboler med sannolikheter p₁, p₂, ..., p_q är den genomsnittliga informationen per symbol entropin:

H = −Σᵢ pᵢ log₂(pᵢ)

H når sitt maximum när alla sannolikheter är lika: H_max = log₂(q) bitar. Vilken icke-enhetlig fördelning som helst har lägre entropi.

Beräkna entropi

Binär entropi: en källa med två symboler, P(0) = p, P(1) = 1−p.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H(p) = 0 vid p = 0 eller p = 1 (helt förutsägbar). H(p) = 1 bit vid p = 0,5 (helt oförutsägbar).

Binary Entropy & Channel Capacity

Beräkna H(p) för p = 0,25. Visa formeln med insatta tal, utvärdera båda termerna, och ange resultatet i bitar. Tolka sedan: vad säger H(0,25) < H(0,5) dig om informationsinnehållet i ett snedställt myntkast jämfört med ett rättvist myntkast?

Gibbs olikhet & bullerfri kodning

Gibbs olikhet: för två sannolikhetsfördelningar p = {pᵢ} och q = {qᵢ}:

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

med likhet endast när p = q. Detta vilar på det grundläggande faktum att ln(x) ≤ x − 1 för alla x > 0, med likhet vid x = 1.

Följd: entropi H(p) maximeras när alla symboler är lika sannolika. För q symboler: H_max = log₂(q).

Bullerfri kodningssats: givet en unikt avkodbar kod, kräver Kraft-olikheten Σ 2^(−lᵢ) ≤ 1 där lᵢ är längden på koden för symbol i. Enligt Gibbs olikhet, är den genomsnittliga kodlängden L = Σ pᵢ lᵢ:

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

Du kan inte göra det bättre än entropi i genomsnitt. Huffman-kodning uppnår L < H + 1.

Gibbs olikhet säger H(p) ≤ −Σ pᵢ log₂(qᵢ) för vilken fördelning q som helst. När q är den enhetliga fördelningen qᵢ = 1/q för alla i, förenklas höger sida till log₂(q). Visa denna förenklings algebraiska grund, och ange sedan vad det implicerar om maximal entropi för ett q-symbol alfabet.

Kanalkapacitet

En binär symmetrisk kanal (BSC) vänder varje bit oberoende med felfrekvens Q = 1 − P. Kanalens kapacitet — den maximala tillförlitlig informationshastigheten — är:

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

där H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q) är den binära entropin för felfrekvensen.

Vid Q = 0 (ingen fel): C = 1 bit/överföring (perfekt kanal). Vid Q = 0,5 (slumpmässig vändning): C = 0 (kanalen bär ingen information). Vid Q = 1 (alla bitar vänds): C = 1 (du vet exakt vad avsändaren skickade, bara vänd allt tillbaka).

C mäter den maximala hastigheten R vid vilken du kan överföra med godtyckligt små felfrekvenser. Om R < C, existerar sådana koder. Om R > C, gör de inte det — ingen kod kan slå kapaciteten.

Entropy & Channel Capacity

Beräkna kanalkapacitet

Med P = 0,9 (10 % felfrekvens, Q = 0,1):

C = 1 + 0,9 log₂(0,9) + 0,1 log₂(0,1)

log₂(0,9) ≈ −0,152, log₂(0,1) ≈ −3,322

C ≈ 1 + 0,9×(−0,152) + 0,1×(−3,322) = 1 − 0,137 − 0,332 ≈ 0,531 bitar/överföring

En binär symmetrisk kanal har felfrekvens Q = 0,2 (P = 0,8). Beräkna kanalkapaciteten C = 1 + P log₂(P) + Q log₂(Q). Använd log₂(0,8) ≈ −0,322 och log₂(0,2) ≈ −2,322. Visa din insättning och aritmetik, och tolka sedan: vid denna kapacitet, vilken andel av den rå bitfrekvensen kan bära faktisk information?

Vad satsen bevisar

Shannons fundamentala sats: för vilken hastighet R < C som helst existerar koder av blocklängd n (med n → ∞) som uppnår felfrekvens P_E → 0.

Beviset använder ett överraskande argument: slumpmässiga koder. Istället för att konstruera en specifik kod, gjorde Shannon ett medelvärde över alla möjliga slumpmässiga kodböcker (myntkastkodning). Han visade att genomsnittsfel över alla kodböcker är små. Om genomsnittet är litet, uppnår minst en kod litet fel.

Sfär-baserad analys: avsändaren väljer meddelande aᵢ → sfär av radie n(Q + ε₂) omkring aᵢ i n-dimensionellt binärt rum. För stora n ligger det mottagna ordet bⱼ innanför denna sfär med hög sannolikhet. Mottagaren avkodar till den kodord vars sfär innehåller bⱼ.

Fyra fall bestämmer felfrekvensen P_E:

``aᵢ i sfär andra aⱼ i sfär resultat ja nej rätt (inget fel) ja ja tvetydigt → fel nej ja falskt avkodning → fel nej nej utanför alla sfärer → fel``

Information Geometry & Sphere Packing

Gränsen för P_E visar sig vara: P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C)) för lämpligt vald d och ε₂. Genom att välja ε₂ så H(Q+ε₂) < C blir exponenten negativ. För stora n går den andra termen → 0.

Existentiell karaktär hos satsen

Humming var exakt om vad satsen gör och inte tillhandahåller.

Vad den bevisar: tillförlitlig kommunikation med hastighet R < C är möjlig, i princip, för tillräckligt stort n.

Vad den inte tillhandahåller: explicit kodkonstruktion. En slumpmässig kod av längd n stor nog att närma sig kapacitet har en kodbok av storlek M × n bitar, där både M och n är astronomiskt stora. Du kan inte lagra eller beräkna med den.

Felkorrigeringskoder vs. Shannon: felkorrigeringskoder (Hamming, Reed-Solomon, turbo, LDPC) tillhandahåller explicita, beräkningsbara konstruktioner. De offrar något avstånd från kapacitet i utbyte mot praktiska kodare & avkodare. När n växer och fler fel korrigeras per block kan praktiska koder närma sig kapacitet närmare.

Rymdsatelliternas exempel: Voyager och Pioneer använde kraftfulla felkorrigeringskoder för att kommunicera över miljarder mil på 5–20 watts kraft. Långa blocklängder tillät fler fel per block att korrigeras, vilket pressade närmare kapacitet trots det enorma bruset från avståndet.

Kritisk bedömning

Humming avslutade kapitel 13 med en bredare kritik av definitioner inom vetenskapen. Shannons informationsformel mäter maskinöverraskning, inte mänsklig mening. Namnet 'Informationsteori' löftar för mycket. Fiskarnätets analogi: en fiskare som fångar endast fiskar större än näts maska drar slutsatsen att det inte finns mindre fiskar. Verktygets begränsningar blir världens uppenbara begränsningar.

Shannons sats bevisar att koder som uppnår godtyckligt små fel vid hastighet R < C existerar, men beviset är icke-konstruktivt: det visar existensen genom att medelvärde över slumpmässiga kodböcker, inte genom att bygga en kod. Förklara i dina egna ord varför detta spelar roll praktiskt, och beskriv vilka utmaningar gapet mellan Shannons existensbewis och en fungerande felkorrigeringskod kräver att ingenjörer löser.

Problemet med definitioner

Humming använde informationsteori för att göra en större metodologisk poäng: initiala definitioner bestämmer vad du hittar, mer än de flesta inser.

Shannon valde att definiera 'information' som överraskning. Den definitionen var produktiv för kommunikationsteknik. Men den importerade en specifik omfattning — maskinlika system — in i ett ord ('information') som antyder universell tillämpning.

Fiskarnätets analogi: ett nät med 6-tums maska fångar endast stora fiskar. Fiskaren drar slutsatsen: minsta fiskstorlek är 6 tum. Slutsatsen återspeglar verktyget, inte världen.

IQ som en parallell: ett test utformat för att mäta 'intelligens', kalibrerat för att producera en normalfördelning, sedan använt för att definiera intelligens. Verktyget formar konceptet.

Hummings rekommendation: närhelst du möter en definition, fråga (1) hur mycket överensstämmer den med din tidigare intuition? (2) hur mycket förvrida den? (3) under vilka förhållanden rammades den? (4) appliceras den nu under olika villkor?

Applicera Hummings fyra-frågekritik på Shannons definition av information. För var och en av de fyra frågorna, ge ett specifikt svar som visar att du har engagerat dig både med definitionen och dess begränsningar.