un — 信息论的几何学

概率单纯形

q个符号上的概率分布是(q−1)维单纯形中的一点：所有满足pᵢ ≥ 0且Σ pᵢ = 1的向量(p₁, ..., p_q)的集合。

对于q = 2：单纯形是线段[0,1]，由单个概率p参数化。对于q = 3：单纯形是ℝ²中的等边三角形。每个顶点是确定性分布（所有概率集中在一个符号上）；中心是均匀分布。

熵 H(p)为单纯形的每个点分配一个实数。函数的几何决定了许多基本结果。

凹性

H在单纯形上凹的：对于任意两个分布p和q以及任意λ ∈ [0,1]：

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

两个分布的混合的熵至少与其各自熵的加权平均值一样大。直观理解：混合两个信源会增加不确定性。

熵曲线与信道容量

验证凹性

对于二元熵H(p)，凹性在图中可见：曲线向上弯曲，从不低于任何连接两点的弦。

凹性的形式化测试：二阶导数H''(p) ≤ 0处处成立。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 对所有p ∈ (0,1)

二阶导数在内部处处严格为负：H严格凹。

使用二阶导数测试验证H(p)的凹性。从H'(p) = log₂((1−p)/p)开始，再对p求导一次得到H''(p)。展示求导步骤并确认H''(p) < 0对所有p ∈ (0,1)。严格凹性对最大值的位置意味着什么？

容量达到分布

信道容量定义为所有输入分布p(x)上的互信息最大值：

C = max_{p(x)} I(X; Y)

其中I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)。

对于错误概率为Q的二元对称信道：容量达到的输入分布是均匀分布 p(0) = p(1) = 0.5。

原因：H(Y)由均匀输出分布最大化。对于BSC，均匀输入给出均匀输出。任何其他输入分布使H(Y)更小，减少I(X;Y)。

几何上：互信息I(X;Y)是输入分布p(x)在单纯形上的凹函数。凹函数在凸集上的最大值在唯一点（对于对称信道，在中心）达到。

互信息I(X;Y)对p(x)凹且对信道p(y|x)凸。对于Q = 0.3的二元对称信道，计算信道容量C。然后从几何上解释为什么对于对称信道，I(X;Y)在输入分布上的最大值在p(0) = p(1) = 0.5达到。

KL散度

Kullback-Leibler散度（相对熵）从分布q到分布p：

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0总是成立（Gibbs不等式）。D(p || q) = 0当且仅当p = q。

D不是真正的距离：它是非对称的（通常D(p||q) ≠ D(q||p)）且不满足三角形不等式。但它作为p在概率空间中距q有多'远'的度量。

KL散度在信息论中无处不在：

- 互信息：I(X;Y) = D(p(x,y) || p(x)p(y))。互信息是联合分布与边际分布乘积之间的KL散度——联合分布距独立有多远。

- Gibbs不等式：无噪声编码定理直接来自D(p || q) ≥ 0。

- 信道容量：C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y))。

概率空间中的几何

计算KL散度

例子：p = (0.5, 0.5)均匀二元，q = (0.8, 0.2)有偏二元。

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322比特

对p = (0.5, 0.5)和q = (0.8, 0.2)计算D(q || p)。展示带入的公式和值。然后比较D(q||p)与D(p||q) ≈ 0.322比特。它们相等吗？这个非对称性在几何上意味着什么——为什么KL散度不是真正的距离度量？

信道容量作为几何距离

信道容量在概率分布空间中有几何解释。

对于信道p(y|x)，定义容量达到的输入分布p*(x)。容量满足：

C = D(p*(y) || r(y))

其中p(y) = Σ p(x) p(y|x)是最优输入下的输出分布，r(y) = argmin_r max_x D(p(y|x) || r(y))是最小信息输出分布——输出概率空间中与所有条件输出分布同时最接近（在KL散度中）的点。

这是信息几何观点：信道容量是输出分布空间中最小的KL散度球的半径，该球包含所有条件分布p(y|x=0)和p(y|x=1)。

对于BSC：p(y|x=0) = (1−Q, Q)且p(y|x=1) = (Q, 1−Q)。由对称性，最小信息输出r(y) = (0.5, 0.5)。容量= D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q)。该公式从几何恢复标准结果。

从KL散度计算容量

验证几何公式：对于Q = 0.1的BSC，r(y) = (0.5, 0.5)，C = D(p(y|x=0) || r(y))。

p(y|x=0) = (0.9, 0.1)（发送0，以概率0.9接收0，以概率0.1接收1）。

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848，log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531比特

检验：C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531比特 ✓

对于Q = 0.2的BSC，通过计算D(p(y|x=0) || r(y))验证几何容量公式，其中p(y|x=0) = (0.8, 0.2)且r(y) = (0.5, 0.5)。使用log₂(1.6) ≈ 0.678和log₂(0.4) ≈ −1.322。然后确认结果与C = 1 − H(0.2)匹配。

率失真与压缩的极限

率失真理论将信息论扩展到有损压缩。它不是问'表示信源所需的最少比特数是多少？'而是问：'给定对某些平均失真D的容忍度，最小速率R(D)是多少比特/符号？'

率失真函数R(D)在D中是凸的和递减的：更大的失真容忍度允许更低的速率。在D = 0（无损）时：R(0) = H(source)。随着D增加，R(D) → 0。

几何上：R(D)在(速率, 失真)平面上描绘一条曲线。每个可达的(R, D)对都在曲线上或上方。曲线下方的点是不可能的——你无法在任何失真水平上压缩到基本极限以下。

率失真定理（Shannon，1959）：对于任何R > R(D)，存在编码实现至多失真D的期望。对于R < R(D)：没有编码实现失真D。曲线是(速率, 失真)空间中的几何前沿。

率失真函数R(D)是凸的和递减的。从几何角度，凸性对于当你接近D = 0时减少失真的边际成本意味着什么。然后连接到实际工程权衡：为什么有损压缩格式（JPEG、MP3）在D = 0远处运行？