un — 信息論的幾何學

概率單形

q個符號上的概率分佈是 (q−1)維單形 中的一個點：所有向量(p₁, ..., p_q)的集合，其中pᵢ ≥ 0且Σ pᵢ = 1。

對於q = 2：單形是線段[0,1]，由單一概率p參數化。對於q = 3：單形是ℝ²中的等邊三角形。每個角是確定性分佈（所有概率集中在一個符號上）；中心是均勻分佈。

熵 H(p)給單形上的每一點分配一個實數。函數的幾何決定了許多基本結果。

凹性

H在單形上是凹的：對於任意兩個分佈p和q及任意λ ∈ [0,1]：

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

兩個分佈的混合的熵至少與它們各自熵的加權平均一樣大。直覺：混合兩個信源會增加不確定性。

Entropy Curve & Channel Capacity

驗證凹性

對於二元熵H(p)，凹性在圖形中是可見的：曲線向上彎曲，永遠不低於任何連接兩個點的弦。

凹性的形式測試：二階導數H''(p) ≤ 0到處。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 for all p ∈ (0,1)

二階導數在內部到處都是嚴格負的：H是嚴格凹的。

使用二階導數測試驗證H(p)是凹的。從H'(p) = log₂((1−p)/p)開始，再對其進行一次微分得到H''(p)。展示微分步驟並確認對於所有p ∈ (0,1)都有H''(p) < 0。嚴格凹性對於最大值的位置意味著什麼？

容量達成分佈

通道容量定義為所有輸入分佈上的最大互信息：

C = max_{p(x)} I(X; Y)

其中I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)。

對於具有錯誤概率Q的二元對稱通道：容量達成輸入分佈是 均勻分佈 p(0) = p(1) = 0.5。

為什麼：H(Y)由均勻輸出分佈最大化。在BSC中，均勻輸入給出均勻輸出。任何其他輸入分佈使H(Y)更小，減少了I(X;Y)。

幾何上：互信息I(X;Y)在輸入分佈p(x)上是凹函數，凸集上凹函數的最大值在唯一點達成（對於對稱通道，在中心）。

互信息I(X;Y)在p(x)中是凹的，在通道p(y|x)中是凸的。對於具有Q = 0.3的二元對稱通道，計算通道容量C。然後幾何上解釋為什麼在輸入分佈上I(X;Y)的最大值對於對稱通道在p(0) = p(1) = 0.5處達成。

KL散度

Kullback-Leibler散度（相對熵）從分佈q到分佈p：

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0總是成立（Gibbs不等式）。D(p || q) = 0當且僅當p = q。

D 不是真正的距離：它是非對稱的（D(p||q) ≠ D(q||p)一般情況下）且不滿足三角不等式。但它在概率空間中充當p距q有多遠的度量。

KL散度出現在信息論中的許多地方：

- 互信息：I(X;Y) = D(p(x,y) || p(x)p(y))。互信息是聯合分佈和邊際乘積之間的KL散度——聯合距獨立有多遠。

- Gibbs不等式：無噪音編碼定理直接從D(p || q) ≥ 0遵循。

- 通道容量：C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y))。

Geometry in Probability Space

計算KL散度

例子：p = (0.5, 0.5)均勻二元，q = (0.8, 0.2)偏向二元。

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322比特

對於p = (0.5, 0.5)和q = (0.8, 0.2)，計算D(q || p)。展示帶有代入值的公式。然後比較D(q||p) vs. D(p||q) ≈ 0.322比特。它們相等嗎？這種非對稱性在幾何上意味著什麼——為什麼KL散度不是真正的距離度量？

通道容量作為幾何距離

通道容量在概率分佈空間中有幾何解釋。

對於通道p(y|x)，定義 容量達成 輸入分佈p*(x)。容量滿足：

C = D(p*(y) || r(y))

其中p(y) = Σ p(x) p(y|x)是最優輸入下的輸出分佈，r(y) = argmin_r max_x D(p(y|x) || r(y))是 最小信息輸出分佈 ——輸出概率空間中的點最接近（在KL散度中）所有條件輸出分佈。

這是 信息幾何 視圖：通道容量是輸出分佈空間中最小KL散度球的半徑，包含所有條件分佈p(y|x=0)和p(y|x=1)。

對於BSC：p(y|x=0) = (1−Q, Q)和p(y|x=1) = (Q, 1−Q)。根據對稱性，最小信息輸出r(y) = (0.5, 0.5)。容量= D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q)。公式從幾何中恢復了標準結果。

從KL散度的容量

驗證幾何公式：對於Q = 0.1、r(y) = (0.5, 0.5)的BSC，C = D(p(y|x=0) || r(y))。

p(y|x=0) = (0.9, 0.1)（發送0，以概率0.9接收0，概率0.1接收1）。

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848，log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531比特

檢驗：C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531比特 ✓

對於Q = 0.2的BSC，通過計算D(p(y|x=0) || r(y))驗證幾何容量公式，其中p(y|x=0) = (0.8, 0.2)和r(y) = (0.5, 0.5)。使用log₂(1.6) ≈ 0.678和log₂(0.4) ≈ −1.322。然後確認結果匹配C = 1 − H(0.2)。

率失真與壓縮的極限

率失真理論 將信息論擴展到有損壓縮。它不是問「代表信源的最少比特數是多少？」而是問：「給定對某些平均失真D的容差，最小比率R(D)比特每符號是多少？」

率失真函數R(D)是凸的和 遞減的 在D中：失真容差越多允許的比率越低。在D = 0（無損）：R(0) = H(source)。當D增加，R(D) → 0。

幾何上：R(D)在(速率、失真)平面上追蹤曲線。每個可達的(R, D)對在該曲線上或上方。曲線下的點不可能——你不能在任何失真水平上壓縮低於基本極限。

率失真定理（Shannon，1959）：對於任何R > R(D)，編碼存在達到預期失真最多D。對於R < R(D)：沒有編碼達到預期失真D。曲線是(速率、失真)空間中的幾何邊界。

率失真函數R(D)是凸的和遞減的。幾何上描述凸性對R(D)的邊際成本意味著什麼，當你接近D = 0時減少失真。然後連接到實際工程權衡：為什麼有損壓縮格式（JPEG、MP3）遠在D = 0之上運作？