un — Hamming第27章：不可靠的数据

un

访客

1 / ?

返回课程列表

统计学家的公文包

Hamming以一个故事开启第27章。Bell实验室的一位统计学家朋友怀疑一项研究中的测量不准确。他与部门主管辩论，后者拒绝重新测量——"这些仪器上有铜牌，标明它们的精度，我的人员是可靠的。"

周一，统计学家到达说他把公文包落在火车上，丢失了所有数据。别无选择，只好重新测量。新的测量数据到达时，统计学家拿出了原始记录——显示它们偏离了多远。这个举动让他不受欢迎，但不准确性现在是不可否认的。

Hamming从另一个案例中得出一个更深刻的教训：一项关于电话呼叫模式的研究，由放置呼叫的相同中央办公设备记录。一天，统计学家注意到一个呼叫被计费到一个不存在的中央办公室。进一步查看，他发现大量呼叫连接——有几分钟——到不存在的办公室。机器正在生成关于其自身操作的坏数据。你不能信任一台机器来正确收集关于自身的数据。

他的第三个例子：他在洛杉矶空气污染部门的兄弟，他发现有必要拆卸、重新组装和重新校准他们收到的每一台新仪器，无论制造商的声明如何。

Hamming的规则：在处理数据之前，始终仔细检查数据。绘制它。寻找不应该出现的模式。检查不一致之处。无论答案多么急迫，都要先对数据进行预测试。

随机误差、系统误差与校准链

数据预测试

Hamming的库存研究：他收到了约100项物品18个月的库存记录，天真地相信了供应商关于已删除不一致性的保证。在项目后期，他发现了残留的不一致性——这些项目不能在没有错误的情况下发生（例如，从空库存中提取）。

他得出结论："我首先必须找到它们，然后消除它们，然后再次运行所有数据。从这次经历中，我学到了永远不要处理任何数据，除非我首先仔细检查了错误。"

描述三个具体的一致性检查，你会在信任一个新数据集进行分析之前应用这些检查。对于每个检查，解释它会捕捉什么类型的错误——以及尽管供应商的保证，为什么这种类型的错误可能存在于数据中。

两种误差类型

每次物理测量都包含两种误差类型：

随机误差：围绕真实值的不可预测变化。它遵循以真实值为中心的分布（通常近似高斯分布）。随机误差通过平均相互抵消：进行足够的测量，平均值接近真实值。

系统误差（偏差）：一个方向上的一致偏移。你的所有测量都被相同的量偏移。任何平均都不会消除它，因为许多有偏差的测量的平均值仍然是有偏差的。

Hamming从物理学的例子：一个包含10个基本常数（光速、阿伏加德罗数、电子电荷等）的表格被编制，然后24年后用改进的仪器重新编制。平均而言，新值5.267倍超出了旧的陈述的误差条。这不太可能仅从随机误差得出——这样大的随机误差是可以检测的。解释：旧仪器有陈述的不确定性中未捕获的系统误差，而且这些技术本身有共同的缺陷在整个社区中传播。

Shannon的评论："校准是测量中最重要的事情。"校准涉及系统误差。如果你的仪器一直读数高3%，任何数量的重复测量都无法解决——你必须校准。

识别系统误差

哈勃常数：宇宙膨胀的速率，从星系的红移距离关系测量。过去50年来，多个独立团队对其进行了测量。历史上，许多已发表的值落在其他已发表值的误差条之外——意味着分歧比陈述的不确定性预测的要大。

解释为什么哈勃常数的独立测量可能都有小的陈述随机误差，但仍然不同意比这些误差更大的数量。什么类型的误差会导致这种模式，你会如何实验上将其与随机误差区分开？

如何测试你无法测试的东西？

Hamming提出了一个没有干净解决方案的问题，但每个实践工程师最终都会面临：当测试本身比你拥有的时间更长，而你的测试设备不如你正在测试的设备可靠时，你如何测试设备的可靠性？

情景：设备必须在现场运行20年（175,000小时）。你的生命周期测试实验室的额定运行时间为10,000小时。你的测试周期预算是3个月（约2,000小时）。设备预计在现场面临高达85°C的运行温度。

加速测试：在105°C下运行设备，假设故障的发生速度比85°C下快10倍（一个常见的工程经验法则）。然后105°C下的2,000小时"代表"85°C下的20,000小时。但这样吗？

问题：105°C下的故障模式可能与85°C下的故障模式不同。如果焊接点在85°C下因热疲劳而失效，但在105°C下因氧化而失效，加速测试对你关于现场寿命没有告诉任何有用的信息。

Shannon的建议适用：校准——理解你的测量实际测量什么——是关键步骤。加速测试仅在故障模式相同时才校准温度与故障率。验证这一点需要单独的研究。

设计生命周期测试

你是一个植入人体的医疗设备的可靠性工程师。它必须持续10年（87,600小时）。你的实验室预算允许进行6个月的测试（4,380小时）。设备在体温（37°C）下运行。

仅在50°C或60°C下运行加速测试并推断预测10年可靠性的根本问题是什么？描述加速测试可能遗漏或错误表征的至少两种特定故障模式，并解释你会收集什么额外证据来验证推断。