un — 信息论

香农所说的信息

香农通过测量惊讶来定义信息。一条概率为p的消息包含：

I = −log₂(p) bits

一个确定事件（p = 1）包含0比特——没有惊讶，没有信息。一个罕见事件（p = 1/1024）包含10比特。

汉明立即指出问题：这是一个测量数量的公式，不是对概念的定义。它测量的是机器般的惊讶，而不是人类的意义。一个已经知道问题答案的学生从答案中获得0比特——无论答案对他人有多重要。

该公式对电话系统、无线电、计算机表现良好。它对人类交流、生物学或意义表现不佳。汉明更倾向的名字：'通信理论'，而不是'信息论'。

熵

对于一个有q个符号、概率为p₁, p₂, ..., p_q的字母表，每个符号的平均信息是熵：

H = −Σᵢ pᵢ log₂(pᵢ)

H在所有概率相等时达到最大值：H_max = log₂(q)比特。任何非均匀分布都有更低的熵。

计算熵

二进制熵：一个有两个符号的源，P(0) = p，P(1) = 1−p。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H(p)在p = 0或p = 1时为0（完全可预测）。H(p)在p = 0.5时为1比特（完全不可预测）。

Binary Entropy & Channel Capacity

计算p = 0.25时的H(p)。显示公式并代入数字，计算两项，并用比特表示结果。然后解释：H(0.25) < H(0.5)告诉你关于有偏硬币翻转与公平硬币翻转信息含量的什么？

Gibbs不等式与无噪声编码

Gibbs不等式：对于任何两个概率分布p = {pᵢ}和q = {qᵢ}：

−Σ pᵢ log₂(pᵢ) ≤ −Σ pᵢ log₂(qᵢ)

等号仅当p = q时成立。这依赖于基本事实：ln(x) ≤ x − 1对所有x > 0，等号仅在x = 1时成立。

推论：熵H(p)在所有符号概率相等时最大化。对于q个符号：H_max = log₂(q)。

无噪声编码定理：对于一个唯一可译码，Kraft不等式要求Σ 2^(−lᵢ) ≤ 1，其中lᵢ是符号i的码字长度。根据Gibbs不等式，平均码长L = Σ pᵢ lᵢ满足：

L ≥ H(p) = −Σ pᵢ log₂(pᵢ)

你无法在平均情况下做得比熵更好。Huffman编码达到L < H + 1。

Gibbs不等式说H(p) ≤ −Σ pᵢ log₂(qᵢ)对任何分布q。当q是均匀分布qᵢ = 1/q时，右边简化为log₂(q)。代数上显示这个简化，然后说明它对q符号字母表最大熵意味着什么。

信道容量

二进制对称信道（BSC）以错误概率Q = 1 − P独立翻转每个比特。BSC的容量——最大可靠信息速率——是：

C = 1 + P log₂(P) + Q log₂(Q) = 1 − H(Q)

其中H(Q) = −Q log₂(Q) − (1−Q) log₂(1−Q)是错误率的二进制熵。

在Q = 0（无错误）时：C = 1比特/传输（完美信道）。在Q = 0.5（随机翻转）时：C = 0（信道不携带信息）。在Q = 1（所有比特翻转）时：C = 1（你确切知道发送者发送的，只需翻转所有东西回去）。

C测量最大速率R，在该速率下你可以以任意小的错误概率传输。如果R < C，这样的码存在。如果R > C，它们不存在——没有码可以超越容量。

Entropy & Channel Capacity

计算信道容量

对于P = 0.9（10%错误率，Q = 0.1）：

C = 1 + 0.9 log₂(0.9) + 0.1 log₂(0.1)

log₂(0.9) ≈ −0.152，log₂(0.1) ≈ −3.322

C ≈ 1 + 0.9×(−0.152) + 0.1×(−3.322) = 1 − 0.137 − 0.332 ≈ 0.531比特/传输

一个二进制对称信道有错误概率Q = 0.2（P = 0.8）。计算信道容量C = 1 + P log₂(P) + Q log₂(Q)。使用log₂(0.8) ≈ −0.322和log₂(0.2) ≈ −2.322。显示你的代入和算术，然后解释：在这个容量下，原始比特率的哪一部分可以携带实际信息？

定理证明了什么

香农的基本定理：对于任何速率R < C，存在块长为n的码（当n → ∞）达到错误概率P_E → 0。

证明使用令人惊讶的论证：随机码。代替构造特定码，香农对所有可能的随机码本进行平均（硬币翻转编码）。他显示所有码本上的平均错误很小。如果平均值很小，至少一个码达到小错误。

基于球的分析：发送者选择消息aᵢ →在n维二进制空间中围绕aᵢ半径为n(Q + ε₂)的球。对于大n，接收到的字bⱼ在这个球内的概率很高。接收器解码为球包含bⱼ的码字。

四种情况确定错误概率P_E：

``aᵢ在球内其他aⱼ在球内结果是否正确（无错误）是是模糊 → 错误否是错误解码 → 错误否否在所有球外 → 错误``

Information Geometry & Sphere Packing

P_E的界的计算结果为：P_E ≤ d + M × 2^(n × (H(Q+ε₂) − C))对于适当选择的d和ε₂。选择ε₂使H(Q+ε₂) < C使指数为负。对于大n，第二项 → 0。

定理的存在性质

汉明对定理证明了什么和没有证明什么很精确。

它证明了什么：可靠通信在速率R < C是可能的，原则上，对于足够大的n。

它不提供：显式码构造。一个长度足够大接近容量的随机码有一个码本大小为M × n比特，其中M和n都是天文数字。你无法存储或计算它。

纠错码与香农：纠错码（汉明、里德-所罗门、涡轮、LDPC）提供显式、可计算的构造。它们牺牲了与容量的某些距离以换取实用的编码器和解码器。当n增长且每个块纠正更多错误时，实用码可以接近容量。

太空探测器例子：旅行者和先驱号使用强大的纠错码在数十亿英里的距离上以5-20瓦的功率通信。长块长度允许纠正每块中更多的错误，尽管来自距离的巨大噪声但接近容量。

批判性评估

汉明用对科学定义的更广泛批评结束了第13章。香农的信息公式测量机器惊讶，不是人类意义。名字'信息论'过度承诺。鱼网类比：一个渔夫只捕捉大于网孔的鱼，得出结论没有更小的鱼。工具的局限成为世界的明显约束。

香农定理证明达到任意小错误在速率R < C的码存在，但证明是非构造性的：它通过对随机码本求平均显示存在性，而不是通过构造码。用你自己的话解释这在实际中为什么重要，并描述香农存在性证明与一个工作纠错码之间的差距需要工程师解决什么。

定义的问题

汉明使用信息论来表达一个更大的方法论观点：初始定义决定你发现什么，比大多数人意识到的更多。

香农选择将'信息'定义为惊讶。该定义对通信工程是富有成果的。但它进口了特定的范围——机器般的系统——到一个词（'信息'）中，这暗示普遍的适用性。

鱼网类比：一个网眼为6英寸的网只捕捉大鱼。渔夫得出结论：最小鱼大小是6英寸。结论反映了工具，而不是世界。

IQ作为平行：一个测试设计来测量'智力'，校准产生正态分布，然后用来定义智力。工具形成了概念。

汉明的推荐：当你遇到一个定义时，问（1）它与你之前的直觉同意多少？（2）它扭曲多少？（3）在什么条件下制定了它？（4）它现在在不同的条件下被应用吗？

应用汉明的四问题批评到香农对信息的定义。对于这四个问题中的每一个，给出一个具体的答案，表明你已经与定义及其限制进行了交互。