English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

访客
1 / ?
返回课程列表

统计学家的公文包

Hamming以一个故事开启第27章。Bell实验室的一位统计学家朋友怀疑一项研究中的测量不准确。他与部门主管辩论,后者拒绝重新测量——"这些仪器上有铜牌,标明它们的精度,我的人员是可靠的。"

周一,统计学家到达说他把公文包落在火车上,丢失了所有数据。别无选择,只好重新测量。新的测量数据到达时,统计学家拿出了原始记录——显示它们偏离了多远。这个举动让他不受欢迎,但不准确性现在是不可否认的。

Hamming从另一个案例中得出一个更深刻的教训:一项关于电话呼叫模式的研究,由放置呼叫的相同中央办公设备记录。一天,统计学家注意到一个呼叫被计费到一个不存在的中央办公室。进一步查看,他发现大量呼叫连接——有几分钟——到不存在的办公室。机器正在生成关于其自身操作的坏数据。你不能信任一台机器来正确收集关于自身的数据。

他的第三个例子:他在洛杉矶空气污染部门的兄弟,他发现有必要拆卸、重新组装和重新校准他们收到的每一台新仪器,无论制造商的声明如何。

Hamming的规则:在处理数据之前,始终仔细检查数据。绘制它。寻找不应该出现的模式。检查不一致之处。无论答案多么急迫,都要先对数据进行预测试。

随机误差、系统误差与校准链

数据预测试

Hamming的库存研究:他收到了约100项物品18个月的库存记录,天真地相信了供应商关于已删除不一致性的保证。在项目后期,他发现了残留的不一致性——这些项目不能在没有错误的情况下发生(例如,从空库存中提取)。

他得出结论:"我首先必须找到它们,然后消除它们,然后再次运行所有数据。从这次经历中,我学到了永远不要处理任何数据,除非我首先仔细检查了错误。"

描述三个具体的一致性检查,你会在信任一个新数据集进行分析之前应用这些检查。对于每个检查,解释它会捕捉什么类型的错误——以及尽管供应商的保证,为什么这种类型的错误可能存在于数据中。

两种误差类型

每次物理测量都包含两种误差类型:

随机误差:围绕真实值的不可预测变化。它遵循以真实值为中心的分布(通常近似高斯分布)。随机误差通过平均相互抵消:进行足够的测量,平均值接近真实值。

系统误差(偏差):一个方向上的一致偏移。你的所有测量都被相同的量偏移。任何平均都不会消除它,因为许多有偏差的测量的平均值仍然是有偏差的。

Hamming从物理学的例子:一个包含10个基本常数(光速、阿伏加德罗数、电子电荷等)的表格被编制,然后24年后用改进的仪器重新编制。平均而言,新值5.267倍超出了旧的陈述的误差条。这不太可能仅从随机误差得出——这样大的随机误差是可以检测的。解释:旧仪器有陈述的不确定性中未捕获的系统误差,而且这些技术本身有共同的缺陷在整个社区中传播。

Shannon的评论:"校准是测量中最重要的事情。"校准涉及系统误差。如果你的仪器一直读数高3%,任何数量的重复测量都无法解决——你必须校准。

识别系统误差

哈勃常数:宇宙膨胀的速率,从星系的红移距离关系测量。过去50年来,多个独立团队对其进行了测量。历史上,许多已发表的值落在其他已发表值的误差条之外——意味着分歧比陈述的不确定性预测的要大。

解释为什么哈勃常数的独立测量可能都有小的陈述随机误差,但仍然不同意比这些误差更大的数量。什么类型的误差会导致这种模式,你会如何实验上将其与随机误差区分开?

如何测试你无法测试的东西?

Hamming提出了一个没有干净解决方案的问题,但每个实践工程师最终都会面临:当测试本身比你拥有的时间更长,而你的测试设备不如你正在测试的设备可靠时,你如何测试设备的可靠性?

情景:设备必须在现场运行20年(175,000小时)。你的生命周期测试实验室的额定运行时间为10,000小时。你的测试周期预算是3个月(约2,000小时)。设备预计在现场面临高达85°C的运行温度。

加速测试:在105°C下运行设备,假设故障的发生速度比85°C下快10倍(一个常见的工程经验法则)。然后105°C下的2,000小时"代表"85°C下的20,000小时。但这样吗?

问题:105°C下的故障模式可能与85°C下的故障模式不同。如果焊接点在85°C下因热疲劳而失效,但在105°C下因氧化而失效,加速测试对你关于现场寿命没有告诉任何有用的信息。

Shannon的建议适用:校准——理解你的测量实际测量什么——是关键步骤。加速测试仅在故障模式相同时才校准温度与故障率。验证这一点需要单独的研究。

设计生命周期测试

你是一个植入人体的医疗设备的可靠性工程师。它必须持续10年(87,600小时)。你的实验室预算允许进行6个月的测试(4,380小时)。设备在体温(37°C)下运行。

仅在50°C或60°C下运行加速测试并推断预测10年可靠性的根本问题是什么?描述加速测试可能遗漏或错误表征的至少两种特定故障模式,并解释你会收集什么额外证据来验证推断。