English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

概率單形

q個符號上的概率分佈是 (q−1)維單形 中的一個點:所有向量(p₁, ..., p_q)的集合,其中pᵢ ≥ 0且Σ pᵢ = 1。

對於q = 2:單形是線段[0,1],由單一概率p參數化。對於q = 3:單形是ℝ²中的等邊三角形。每個角是確定性分佈(所有概率集中在一個符號上);中心是均勻分佈。

H(p)給單形上的每一點分配一個實數。函數的幾何決定了許多基本結果。

凹性

H在單形上是 凹的:對於任意兩個分佈p和q及任意λ ∈ [0,1]:

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

兩個分佈的混合的熵至少與它們各自熵的加權平均一樣大。直覺:混合兩個信源會增加不確定性。

Entropy Curve & Channel Capacity

驗證凹性

對於二元熵H(p),凹性在圖形中是可見的:曲線向上彎曲,永遠不低於任何連接兩個點的弦。

凹性的形式測試:二階導數H''(p) ≤ 0到處。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 for all p ∈ (0,1)

二階導數在內部到處都是嚴格負的:H是嚴格凹的。

使用二階導數測試驗證H(p)是凹的。從H'(p) = log₂((1−p)/p)開始,再對其進行一次微分得到H''(p)。展示微分步驟並確認對於所有p ∈ (0,1)都有H''(p) < 0。嚴格凹性對於最大值的位置意味著什麼?

容量達成分佈

通道容量定義為所有輸入分佈上的最大互信息:

C = max_{p(x)} I(X; Y)

其中I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)。

對於具有錯誤概率Q的二元對稱通道:容量達成輸入分佈是 均勻分佈 p(0) = p(1) = 0.5。

為什麼:H(Y)由均勻輸出分佈最大化。在BSC中,均勻輸入給出均勻輸出。任何其他輸入分佈使H(Y)更小,減少了I(X;Y)。

幾何上:互信息I(X;Y)在輸入分佈p(x)上是凹函數,凸集上凹函數的最大值在唯一點達成(對於對稱通道,在中心)。

互信息I(X;Y)在p(x)中是凹的,在通道p(y|x)中是凸的。對於具有Q = 0.3的二元對稱通道,計算通道容量C。然後幾何上解釋為什麼在輸入分佈上I(X;Y)的最大值對於對稱通道在p(0) = p(1) = 0.5處達成。

KL散度

Kullback-Leibler散度(相對熵)從分佈q到分佈p:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0總是成立(Gibbs不等式)。D(p || q) = 0當且僅當p = q。

D 不是 真正的距離:它是非對稱的(D(p||q) ≠ D(q||p)一般情況下)且不滿足三角不等式。但它在概率空間中充當p距q有多遠的度量。

KL散度出現在信息論中的許多地方:

- 互信息:I(X;Y) = D(p(x,y) || p(x)p(y))。互信息是聯合分佈和邊際乘積之間的KL散度——聯合距獨立有多遠。

- Gibbs不等式:無噪音編碼定理直接從D(p || q) ≥ 0遵循。

- 通道容量:C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y))。

Geometry in Probability Space

計算KL散度

例子:p = (0.5, 0.5)均勻二元,q = (0.8, 0.2)偏向二元。

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322比特

對於p = (0.5, 0.5)和q = (0.8, 0.2),計算D(q || p)。展示帶有代入值的公式。然後比較D(q||p) vs. D(p||q) ≈ 0.322比特。它們相等嗎?這種非對稱性在幾何上意味著什麼——為什麼KL散度不是真正的距離度量?

通道容量作為幾何距離

通道容量在概率分佈空間中有幾何解釋。

對於通道p(y|x),定義 容量達成 輸入分佈p*(x)。容量滿足:

C = D(p*(y) || r(y))

其中p(y) = Σ p(x) p(y|x)是最優輸入下的輸出分佈,r(y) = argmin_r max_x D(p(y|x) || r(y))是 最小信息輸出分佈 ——輸出概率空間中的點最接近(在KL散度中)所有條件輸出分佈。

這是 信息幾何 視圖:通道容量是輸出分佈空間中最小KL散度球的半徑,包含所有條件分佈p(y|x=0)和p(y|x=1)。

對於BSC:p(y|x=0) = (1−Q, Q)和p(y|x=1) = (Q, 1−Q)。根據對稱性,最小信息輸出r(y) = (0.5, 0.5)。容量= D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q)。公式從幾何中恢復了標準結果。

從KL散度的容量

驗證幾何公式:對於Q = 0.1、r(y) = (0.5, 0.5)的BSC,C = D(p(y|x=0) || r(y))。

p(y|x=0) = (0.9, 0.1)(發送0,以概率0.9接收0,概率0.1接收1)。

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848,log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531比特

檢驗:C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531比特 ✓

對於Q = 0.2的BSC,通過計算D(p(y|x=0) || r(y))驗證幾何容量公式,其中p(y|x=0) = (0.8, 0.2)和r(y) = (0.5, 0.5)。使用log₂(1.6) ≈ 0.678和log₂(0.4) ≈ −1.322。然後確認結果匹配C = 1 − H(0.2)。

率失真與壓縮的極限

率失真理論 將信息論擴展到有損壓縮。它不是問「代表信源的最少比特數是多少?」而是問:「給定對某些平均失真D的容差,最小比率R(D)比特每符號是多少?」

率失真函數R(D)是 凸的遞減的 在D中:失真容差越多允許的比率越低。在D = 0(無損):R(0) = H(source)。當D增加,R(D) → 0。

幾何上:R(D)在(速率、失真)平面上追蹤曲線。每個可達的(R, D)對在該曲線上或上方。曲線下的點不可能——你不能在任何失真水平上壓縮低於基本極限。

率失真定理(Shannon,1959):對於任何R > R(D),編碼存在達到預期失真最多D。對於R < R(D):沒有編碼達到預期失真D。曲線是(速率、失真)空間中的幾何邊界。

率失真函數R(D)是凸的和遞減的。幾何上描述凸性對R(D)的邊際成本意味著什麼,當你接近D = 0時減少失真。然後連接到實際工程權衡:為什麼有損壓縮格式(JPEG、MP3)遠在D = 0之上運作?