English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

访客
1 / ?
返回课程列表

概率单纯形

q个符号上的概率分布是(q−1)维单纯形中的一点:所有满足pᵢ ≥ 0且Σ pᵢ = 1的向量(p₁, ..., p_q)的集合。

对于q = 2:单纯形是线段[0,1],由单个概率p参数化。对于q = 3:单纯形是ℝ²中的等边三角形。每个顶点是确定性分布(所有概率集中在一个符号上);中心是均匀分布。

H(p)为单纯形的每个点分配一个实数。函数的几何决定了许多基本结果。

凹性

H在单纯形上凹的:对于任意两个分布p和q以及任意λ ∈ [0,1]:

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

两个分布的混合的熵至少与其各自熵的加权平均值一样大。直观理解:混合两个信源会增加不确定性。

熵曲线与信道容量

验证凹性

对于二元熵H(p),凹性在图中可见:曲线向上弯曲,从不低于任何连接两点的弦。

凹性的形式化测试:二阶导数H''(p) ≤ 0处处成立。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 对所有p ∈ (0,1)

二阶导数在内部处处严格为负:H严格凹。

使用二阶导数测试验证H(p)的凹性。从H'(p) = log₂((1−p)/p)开始,再对p求导一次得到H''(p)。展示求导步骤并确认H''(p) < 0对所有p ∈ (0,1)。严格凹性对最大值的位置意味着什么?

容量达到分布

信道容量定义为所有输入分布p(x)上的互信息最大值:

C = max_{p(x)} I(X; Y)

其中I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)。

对于错误概率为Q的二元对称信道:容量达到的输入分布是均匀分布 p(0) = p(1) = 0.5。

原因:H(Y)由均匀输出分布最大化。对于BSC,均匀输入给出均匀输出。任何其他输入分布使H(Y)更小,减少I(X;Y)。

几何上:互信息I(X;Y)是输入分布p(x)在单纯形上的凹函数。凹函数在凸集上的最大值在唯一点(对于对称信道,在中心)达到。

互信息I(X;Y)对p(x)凹且对信道p(y|x)凸。对于Q = 0.3的二元对称信道,计算信道容量C。然后从几何上解释为什么对于对称信道,I(X;Y)在输入分布上的最大值在p(0) = p(1) = 0.5达到。

KL散度

Kullback-Leibler散度(相对熵)从分布q到分布p:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0总是成立(Gibbs不等式)。D(p || q) = 0当且仅当p = q。

D不是真正的距离:它是非对称的(通常D(p||q) ≠ D(q||p))且不满足三角形不等式。但它作为p在概率空间中距q有多'远'的度量。

KL散度在信息论中无处不在:

- 互信息:I(X;Y) = D(p(x,y) || p(x)p(y))。互信息是联合分布与边际分布乘积之间的KL散度——联合分布距独立有多远。

- Gibbs不等式:无噪声编码定理直接来自D(p || q) ≥ 0。

- 信道容量:C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y))。

概率空间中的几何

计算KL散度

例子:p = (0.5, 0.5)均匀二元,q = (0.8, 0.2)有偏二元。

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322比特

对p = (0.5, 0.5)和q = (0.8, 0.2)计算D(q || p)。展示带入的公式和值。然后比较D(q||p)与D(p||q) ≈ 0.322比特。它们相等吗?这个非对称性在几何上意味着什么——为什么KL散度不是真正的距离度量?

信道容量作为几何距离

信道容量在概率分布空间中有几何解释。

对于信道p(y|x),定义容量达到的输入分布p*(x)。容量满足:

C = D(p*(y) || r(y))

其中p(y) = Σ p(x) p(y|x)是最优输入下的输出分布,r(y) = argmin_r max_x D(p(y|x) || r(y))是最小信息输出分布——输出概率空间中与所有条件输出分布同时最接近(在KL散度中)的点。

这是信息几何观点:信道容量是输出分布空间中最小的KL散度球的半径,该球包含所有条件分布p(y|x=0)和p(y|x=1)。

对于BSC:p(y|x=0) = (1−Q, Q)且p(y|x=1) = (Q, 1−Q)。由对称性,最小信息输出r(y) = (0.5, 0.5)。容量= D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q)。该公式从几何恢复标准结果。

从KL散度计算容量

验证几何公式:对于Q = 0.1的BSC,r(y) = (0.5, 0.5),C = D(p(y|x=0) || r(y))。

p(y|x=0) = (0.9, 0.1)(发送0,以概率0.9接收0,以概率0.1接收1)。

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848,log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531比特

检验:C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531比特 ✓

对于Q = 0.2的BSC,通过计算D(p(y|x=0) || r(y))验证几何容量公式,其中p(y|x=0) = (0.8, 0.2)且r(y) = (0.5, 0.5)。使用log₂(1.6) ≈ 0.678和log₂(0.4) ≈ −1.322。然后确认结果与C = 1 − H(0.2)匹配。

率失真与压缩的极限

率失真理论将信息论扩展到有损压缩。它不是问'表示信源所需的最少比特数是多少?'而是问:'给定对某些平均失真D的容忍度,最小速率R(D)是多少比特/符号?'

率失真函数R(D)在D中是凸的递减的:更大的失真容忍度允许更低的速率。在D = 0(无损)时:R(0) = H(source)。随着D增加,R(D) → 0。

几何上:R(D)在(速率, 失真)平面上描绘一条曲线。每个可达的(R, D)对都在曲线上或上方。曲线下方的点是不可能的——你无法在任何失真水平上压缩到基本极限以下。

率失真定理(Shannon,1959):对于任何R > R(D),存在编码实现至多失真D的期望。对于R < R(D):没有编码实现失真D。曲线是(速率, 失真)空间中的几何前沿。

率失真函数R(D)是凸的和递减的。从几何角度,凸性对于当你接近D = 0时减少失真的边际成本意味着什么。然后连接到实际工程权衡:为什么有损压缩格式(JPEG、MP3)在D = 0远处运行?