un — 平衡所有工作站：MOAD-0001 与 MOAD-0005 耦合 [DESCRIPTION /]

优化系统，而非其组件

Hamming 的系统工程第一法则

Hamming 在第 28 章的核心原则：如果你优化组件，你很可能会破坏系统性能。

他用差分分析仪的故事来说明这一点。两个单元需要连接。建造者改进了第二个单元的放大器。在验收当天，Hamming 运行标准测试——求解 y'' + y = 0，绘制 y 对 y' 的曲线，预期得到一个圆。测试失败了。原因是：改进后的放大器通过接地电路导入了更大电流。接地设计原本适用于原始规格，无法承受新的电流水平。接口失效，而非组件本身。

他的概括：大多数系统故障源于接口，而非组件。组件会被设计、测试和认证。接口却往往是事后才被设计，很少被测试，也从未独立认证。当一个组件发生变化时，其接口行为也会随之改变。而下游系统从未针对这种新接口进行设计。

关键不对称性：如果一个组件的性能提升 10 倍，但它所连接的接口存在瓶颈，那么整个系统的性能反而可能下降 10 倍。这种提升不是叠加，而是抵消。

教育系统作为失败的系统工程案例

汉明关于教育的案例

汉明将这一原则应用于教育。优化单个学科的成绩——通过反复训练让学生在每门科目上最大化考试表现——会培养出在单科测试中表现优异，但无法跨学科整合知识的学生。

每个组件（学科成绩）都在提升。系统（教育，即整合理解）却在退化。学科之间的接口——学生跨领域应用知识的能力——从未被优化。它已萎缩。

这不是实施中的意外，而是结构性的。当你衡量并奖励组件性能时，你得到的只是组件优化。接口对组件指标是不可见的。

他的处方是：找到系统中的瓶颈，然后问当你移除它时，下游会发生什么。瓶颈移除会淹没下一个队列。无约束的优化会变成新的约束。

追踪接口退化

Hamming 指出，改进一个组件会改变其接口行为——而系统的其余部分是围绕旧接口设计的。

请举一个软件中的具体例子，说明改进一个组件的性能如何导致下游问题。请指出被改进的组件、受影响的接口，以及在下游故障发生前可能出现的警告信号。

节点、队列、激增分数

一个 MOAD 工厂模型

每个软件依赖图都形成一个工厂。每个节点是一个工作站。每条边是一个队列。工作进入节点的队列，被处理，然后流向下游队列。

每个节点由两个分数表征：

Factory Model DAG: workaholic node (high betweenness + surge) and glutton node (high out-degree)

Surge score = speedup × in-degree

当瓶颈解除时，下游会涌入多少工作量。一个节点若 in-degree 为 5（5 个上游依赖全部指向它），且 speedup 为 100×，则会向下游产生 500× 的 surge。

Betweenness = in-degree + out-degree

这个工作站对总流程的重要性。高介数意味着许多路径都经过此节点。

两种原型：

工作狂节点： 高介数，高激增分数。这是瓶颈。所有上游队列都因它而积压。如果不先在下游准备好容量就移除这个瓶颈，下游的一切将同时崩溃。

贪食节点： 高出度，低激增分数。消耗所有输入给它的东西。它感觉不到痛苦，因为它的瓶颈是内部的，而非吞吐量。忘记停止的机器——工作进入，没有任何输出，而节点永远报告“忙碌”。

MOAD-0001 & MOAD-0005：耦合案例

GHC 案例

在 GHC 依赖解析器打上 MOAD-0001 补丁之前：N=50,000 个依赖项需要 17 分钟才能构建完成。打上补丁后：只需 10 秒。速度提升：100×。

下游会发生什么？原本按 17 分钟批次到达节奏运行的每个构建缓存、制品仓库和 CI 运行器，现在每小时会收到 100× 倍的已完成构建。原本设计为每小时处理 60 个构建制品的缓存，现在每小时将收到 6,000 个。

这就是 MOAD-0005：缓存踩踏缺陷。由于没有为新的到达速率预热缓存，每个缓存键会同时未命中。MOAD-0001 的修复制造了 MOAD-0005。

这种耦合并非偶然，而是结构性的。任何入度 > 1 的 O(N²) → O(N) 加速都会产生大于 1 的浪涌分数。浪涌分数大于 100 即为 MOAD-0005 候选。

披露前的分阶段准备

一个构建系统每小时处理 1,000 个包依赖图。您在图遍历中修补了 MOAD-0001，将构建时间从 60 分钟缩短到 30 秒——实现了 120 倍的加速。现在该系统每小时可处理 120,000 个图。

请指出此补丁后最易受 MOAD-0005 影响的下游系统，并描述您在披露前会采取的修复措施。

何时停止：停止条件

停止条件

当以下四个条件同时满足时，补丁满足停止条件——即：不披露：

1. 补丁存在于实时系统中（已合并、已部署）

2. 没有看护人被指派负责下游影响

3. 下游缺陷（MOAD-0005）未解决

4. 加速比 >= 100×

四者合一 = 婴儿啼哭。合并前先分配团队，不要合并后再分配。

没有看护人的节点就像没有工人的工作站。工作堆积。有人崩溃。永久计算机原则：不先部署驱动程序就无法修复调度算法。三个驱动，三百万人：解除算法阻塞只会制造未服务请求的雷鸣般涌入，而不是更快的交付。

WALL-E：暴食者与工作狂

WALL-E 模型

皮克斯的《WALL-E》以最清晰的形式描绘了工厂模型的失败。暴食者坐在悬浮椅上，无摩擦地进食。工作狂——WALL-E、EVE——在岗位上耗尽生命以维持供给运转。

暴食者节点（悬浮椅上的人类）具有最大出度：它消耗所有输入，不产生任何输出。它的激增分数为零——它是一个汇。它感受不到痛苦，因为其输出端没有任何积累。它只是单纯地消耗。

工作狂节点（WALL-E）具有最大的中介中心性：所有流量都必须经过它。它吸收全部输入，也产生唯一的输出。如果它被更快的模型替换，其激增得分将同时淹没所有下游队列。

WALL-E 系统的缺陷不在于贪食者，而在于缺失的看护者：没有人负责平衡工作站，也没有人在运行算法前预先规划容量。

pip 案例：披露前检查清单

你在 Python 的 pip 依赖解析器中发现了 MOAD-0001。测得的加速比为 200×。pip 每天大约运行 4 亿次安装。PyPI 提供这些包。

在披露此补丁前，请列出你必须确认或准备的三件事，并说明若跳过每件事会造成什么后果。