概率单纯形
q个符号上的概率分布是(q−1)维单纯形中的一点:所有满足pᵢ ≥ 0且Σ pᵢ = 1的向量(p₁, ..., p_q)的集合。
对于q = 2:单纯形是线段[0,1],由单个概率p参数化。对于q = 3:单纯形是ℝ²中的等边三角形。每个顶点是确定性分布(所有概率集中在一个符号上);中心是均匀分布。
熵 H(p)为单纯形的每个点分配一个实数。函数的几何决定了许多基本结果。
凹性
H在单纯形上凹的:对于任意两个分布p和q以及任意λ ∈ [0,1]:
H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)
两个分布的混合的熵至少与其各自熵的加权平均值一样大。直观理解:混合两个信源会增加不确定性。
验证凹性
对于二元熵H(p),凹性在图中可见:曲线向上弯曲,从不低于任何连接两点的弦。
凹性的形式化测试:二阶导数H''(p) ≤ 0处处成立。
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)
H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 对所有p ∈ (0,1)
二阶导数在内部处处严格为负:H严格凹。
容量达到分布
信道容量定义为所有输入分布p(x)上的互信息最大值:
C = max_{p(x)} I(X; Y)
其中I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)。
对于错误概率为Q的二元对称信道:容量达到的输入分布是均匀分布 p(0) = p(1) = 0.5。
原因:H(Y)由均匀输出分布最大化。对于BSC,均匀输入给出均匀输出。任何其他输入分布使H(Y)更小,减少I(X;Y)。
几何上:互信息I(X;Y)是输入分布p(x)在单纯形上的凹函数。凹函数在凸集上的最大值在唯一点(对于对称信道,在中心)达到。
KL散度
Kullback-Leibler散度(相对熵)从分布q到分布p:
D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)
D(p || q) ≥ 0总是成立(Gibbs不等式)。D(p || q) = 0当且仅当p = q。
D不是真正的距离:它是非对称的(通常D(p||q) ≠ D(q||p))且不满足三角形不等式。但它作为p在概率空间中距q有多'远'的度量。
KL散度在信息论中无处不在:
- 互信息:I(X;Y) = D(p(x,y) || p(x)p(y))。互信息是联合分布与边际分布乘积之间的KL散度——联合分布距独立有多远。
- Gibbs不等式:无噪声编码定理直接来自D(p || q) ≥ 0。
- 信道容量:C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y))。
计算KL散度
例子:p = (0.5, 0.5)均匀二元,q = (0.8, 0.2)有偏二元。
D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)
= 0.5 log₂(0.625) + 0.5 log₂(2.5)
≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322比特
信道容量作为几何距离
信道容量在概率分布空间中有几何解释。
对于信道p(y|x),定义容量达到的输入分布p*(x)。容量满足:
C = D(p*(y) || r(y))
其中p(y) = Σ p(x) p(y|x)是最优输入下的输出分布,r(y) = argmin_r max_x D(p(y|x) || r(y))是最小信息输出分布——输出概率空间中与所有条件输出分布同时最接近(在KL散度中)的点。
这是信息几何观点:信道容量是输出分布空间中最小的KL散度球的半径,该球包含所有条件分布p(y|x=0)和p(y|x=1)。
对于BSC:p(y|x=0) = (1−Q, Q)且p(y|x=1) = (Q, 1−Q)。由对称性,最小信息输出r(y) = (0.5, 0.5)。容量= D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q)。该公式从几何恢复标准结果。
从KL散度计算容量
验证几何公式:对于Q = 0.1的BSC,r(y) = (0.5, 0.5),C = D(p(y|x=0) || r(y))。
p(y|x=0) = (0.9, 0.1)(发送0,以概率0.9接收0,以概率0.1接收1)。
D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)
= 0.9 log₂(1.8) + 0.1 log₂(0.2)
log₂(1.8) ≈ 0.848,log₂(0.2) ≈ −2.322
= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531比特
检验:C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531比特 ✓
率失真与压缩的极限
率失真理论将信息论扩展到有损压缩。它不是问'表示信源所需的最少比特数是多少?'而是问:'给定对某些平均失真D的容忍度,最小速率R(D)是多少比特/符号?'
率失真函数R(D)在D中是凸的和递减的:更大的失真容忍度允许更低的速率。在D = 0(无损)时:R(0) = H(source)。随着D增加,R(D) → 0。
几何上:R(D)在(速率, 失真)平面上描绘一条曲线。每个可达的(R, D)对都在曲线上或上方。曲线下方的点是不可能的——你无法在任何失真水平上压缩到基本极限以下。
率失真定理(Shannon,1959):对于任何R > R(D),存在编码实现至多失真D的期望。对于R < R(D):没有编码实现失真D。曲线是(速率, 失真)空间中的几何前沿。