un — 資訊論

香農所謂的資訊

香農通過測量驚訝度來定義資訊。概率為p的消息包含：

I = −log₂(p) 位元

確定事件（p = 1）包含0位元——沒有驚訝，沒有資訊。稀有事件（p = 1/1024）包含10位元。

哈明立即指出了問題：這是一個測量數量的公式，不是概念的定義。它測量機器式的驚訝，而非人類意義。一個已經知道問題答案的學生從答案獲得0位元——無論答案對其他人多麼重要。

該公式適用於電話系統、無線電、電腦。它對人類溝通、生物學或意義的適用性很差。哈明更傾向的名稱：「通訊理論」，而非「資訊論」。

熵

對於q個符號的字母表，其概率分別為p₁, p₂, ..., p_q，每個符號的平均資訊為熵：

H = −Σᵢ pᵢ log₂(pᵢ)

當所有概率相等時，H達到最大值：H_max = log₂(q) 位元。任何非均勻分佈的熵都較低。

計算熵

二元熵：有兩個符號的信源，P(0) = p，P(1) = 1−p。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

在p = 0或p = 1時H(p) = 0（完全可預測）。在p = 0.5時H(p) = 1位元（完全不可預測）。

二元熵與通道容量

計算H(p)，其中p = 0.25。將公式與數字代入，計算兩項，並以位元為單位陳述結果。然後解釋：H(0.25) < H(0.5)告訴你有偏差的硬幣翻轉和公平硬幣翻轉的資訊內容有什麼關係？

吉布斯不等式與無雜訊編碼

吉布斯不等式：對於任意兩個概率分佈p = {pᵢ}和q = {qᵢ}：

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

等號成立當且僅當p = q。這基於一個基本事實：對所有x > 0，ln(x) ≤ x − 1，等號在x = 1時成立。

推論：熵H(p)在所有符號概率相等時達到最大。對於q個符號：H_max = log₂(q)。

無雜訊編碼定理：給定唯一可解碼的編碼，Kraft不等式要求Σ 2^(−lᵢ) ≤ 1，其中lᵢ是符號i的編碼長度。根據吉布斯不等式，平均編碼長度L = Σ pᵢ lᵢ滿足：

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

你無法在平均情況下超越熵。哈夫曼編碼實現L < H + 1。

吉布斯不等式說H(p) ≤ −Σ pᵢ log₂(qᵢ)對任何分佈q成立。當q是均勻分佈qᵢ = 1/q（對所有i）時，右邊簡化為log₂(q)。代數推導這個簡化，然後陳述它對q符號字母表最大熵的含義。

通道容量

二元對稱通道（BSC）以獨立錯誤概率Q = 1 − P翻轉每一位元。BSC的容量——最大可靠資訊速率——為：

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

其中H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q)是錯誤率的二元熵。

在Q = 0時（無錯誤）：C = 1位元/傳輸（完美通道）。在Q = 0.5時（隨機翻轉）：C = 0（通道不傳送資訊）。在Q = 1時（所有位元翻轉）：C = 1（你確切知道發送者發送的內容，只需翻轉所有內容即可）。

C測量最大速率R，使得你可以傳輸的任意小錯誤概率。如果R < C，這樣的編碼存在。如果R > C，它們不存在——沒有編碼可以超越容量。

熵與通道容量

計算通道容量

當P = 0.9（10%錯誤率，Q = 0.1）時：

C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)

log₂(0.9) ≈ −0.152，log₂(0.1) ≈ −3.322

C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531 位元/傳輸

二元對稱通道的錯誤概率為Q = 0.2（P = 0.8）。計算通道容量C = 1 + P log₂(P) + Q log₂(Q)。使用log₂(0.8) ≈ −0.322和log₂(0.2) ≈ −2.322。展示你的代入和運算，然後解釋：在這個容量，原始位元速率的多少比例可以傳送實際資訊？

定理證明了什麼

香農基礎定理：對於任何速率R < C，存在塊長度為n的編碼（當n → ∞時）實現錯誤概率P_E → 0。

證明使用驚人的論證：隨機編碼。香農不是構造具體編碼，而是對所有可能的隨機編碼簿取平均（硬幣翻轉編碼）。他證明了所有編碼簿上的平均錯誤很小。如果平均值很小，至少有一個編碼實現小錯誤。

基於球面的分析：發送者選擇消息aᵢ → n維二元空間中以aᵢ為中心、半徑為n(Q + ε₂)的球面。對於大n，接收的字bⱼ以高概率位於此球面內。接收者解碼為球面包含bⱼ的編碼字。

四種情況決定錯誤概率P_E：

``aᵢ在球面內其他aⱼ在球面內結果是否正確（無錯誤）是是模糊 → 錯誤否是錯誤解碼 → 錯誤否否在所有球面外 → 錯誤``

資訊幾何與球面堆積

P_E的界限結果為：P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C))，用於適當選擇的d和ε₂。選擇ε₂使得H(Q+ε₂) < C使指數為負。對於大n，第二項→ 0。

定理的存在性質

哈明精確地說明了定理做了什麼和沒做什麼。

它證明了什麼：原則上，以速率R < C進行可靠通訊是可能的，當足夠大時。

它沒有提供什麼：明確的編碼構造。一個足夠大的隨機編碼（長度n，足以接近容量）有一個大小為M × n位元的編碼簿，其中M和n都是天文數字。你無法存儲或計算它。

糾錯碼vs.香農：糾錯碼（哈明、里德-所羅門、渦輪、LDPC）提供明確、可計算的構造。它們犧牲與容量的某些距離來交換實用編碼器和解碼器。隨著n增長和更多錯誤每塊被糾正，實用編碼可以密切接近容量。

太空探測器示例：航海家號和先鋒號使用強大的糾錯碼跨越數十億英里以5–20瓦的功率進行通訊。長塊長度允許每塊糾正更多錯誤，儘管距離造成的巨大雜訊，也能接近容量。

批判性評估

哈明在第13章結束時對科學中的定義進行了更廣泛的批評。香農的資訊公式測量機器驚訝，而非人類意義。名稱「資訊論」過度承諾。漁民網眼比喻：一個漁民只用網孔大於某尺寸的網捕魚，因此得出結論沒有更小的魚。工具的限制成為世界的表觀限制。

香農定理證明了在速率R < C實現任意小錯誤的編碼存在，但證明是非構造性的：通過對隨機編碼簿取平均展示存在性，而非構造編碼。用自己的話解釋這在實踐中為什麼重要，並描述香農存在性證明與實際運作糾錯碼之間的差距需要工程師解決什麼。

定義的問題

哈明使用資訊論來論述一個更大的方法論觀點：初始定義決定了你發現的內容，比大多數人意識到的程度更大。

香農選擇將「資訊」定義為驚訝。這定義對通訊工程很有生產力。但它將特定範圍——機器式系統——匯入一個暗示普遍適用性的詞（「資訊」）。

漁網比喻：網孔為6英寸的網只捕大魚。漁民得出結論：最小魚尺寸為6英寸。結論反映工具，而非世界。

智商作為平行例子：一個旨在測量「智能」的測試，校準以產生常態分佈，然後用來定義智能。工具塑造概念。

哈明的建議：每當你遇到定義時，問（1）它與你先前的直覺有多少符合？（2）它扭曲多少？（3）它在什麼條件下被提出？（4）它現在是否被應用於不同的條件？

將哈明的四問批評應用於香農的資訊定義。對四個問題中的每一個，給出顯示你已與定義及其限制互動的具體答案。