un — Hamming 第29章：你测量什么就得到什么

un

访客

1 / ?

返回课程列表

Hamming用第29章仔细剖析了智商测试。

主张：智力在人群中遵循正态分布。测量：在累积概率尺度（概率纸）上绘制分数。分数落在一条直线上——表示正态分布。

Hamming发现的问题：这不是发现。这是构造。智商测试通过取原始分数并应用单调变换来校准，该变换将累积分布强制放在正态概率尺度上。然后，所得分数被宣称测量智力，而智力被定义为校准后的测试衡量的东西。

结果：智力，定义为该测试测量的东西，是正态分布的。当然是的——它被设计成这样。正态分布不是世界中智力的属性；它是校准程序的属性。

Hamming的推广：你测量什么就得到什么。 仪器、校准程序和定义不是独立的。它们形成一个闭合循环。仪器测量的东西变成了什么是真实的定义。

他的微积分考试例子：通过选择问题的难度分布，他几乎可以产生任何他想要的成绩分布。一致困难的考试产生双峰分布（学生要么知道要么不知道）。混合考试产生钟形曲线。分布是测试设计的产物，而不是对学生的发现。

Goodhart定律：当指标成为目标时

Hamming的分析揭示了一个三步的循环定义：

1. 设计一个仪器和校准程序。

2. 将构造定义为'该仪器衡量的东西'。

3. 报告该构造具有校准中设计的分布属性。

在你熟悉的领域中找到一个相同循环回路运作的测量或分类系统：仪器或程序被设计成产生某个特定结果，然后该结果被报告为关于世界的发现。找出三个步骤（仪器、定义、报告的发现），并解释循环性如何可能误导不知道校准历史的人。

Hamming的表述，在Goodhart命名之前：当你使用一个指标作为目标时，它就不再是有效的指标。针对目标的行为腐蚀了指标。

机制：在针对之前，指标与基础值相关。针对之后，理性的行为者直接优化指标。相关性破裂，因为改进指标的最简单方法通常是将其与基础值分离。

Hamming的案例：

- 越南的尸体计数：用作军事进展的指标。士兵通过计数无法验证的对象来优化尸体计数。指标上升；军事进展没有。

- 国民生产总值增长：用作经济福祉的指标。国民生产总值增长可以通过生产负值的东西（污染清理、军事建设、监狱建设）来实现。指标与福祉脱离。

- 测试分数：用作学习的指标。学校教学针对测试。分数上升；对基础主题的理解可能没有。

Hamming的解决方案：（1）定期改变指标，在人们完全优化之前；（2）同时使用多个指标——同时优化所有指标更困难；（3）对任何重要决定都不要依赖单一指标。

一个软件组织通过计数每周写的代码行数（LOC）来衡量开发人员的生产力。最初，LOC与生产力相关——活跃的开发人员写的代码比不活跃的多。

具体描述当LOC指标被用作性能目标时如何受到腐蚀。列出至少三种具体行为，理性的开发人员会采纳这些行为来优化LOC而不改进生产力。然后描述一个更难受腐蚀的多指标替代方案，并解释为什么它更难。

Hamming提出了一个微妙的测量问题：评分量表有动态范围，大多数人不使用它。

例子：一个1-10的量表，其中5是平均值。大多数评分者使用4、5和6，从不冒险到1或9。他们的评分的动态范围实际上是3（从4到6），尽管量表提供了10。

后果：使用完整范围的评分者对平均评分的影响是压缩到中间的评分者的3倍。如果你对你不喜欢的东西评分为2（完整范围），而另一个评分者对他们喜欢的东西评分为6（压缩范围），平均值是4——你的不喜欢超过了他们的喜欢，尽管两者在评分系统的设计中都有平等的声音。

Hamming的信息论联系：分布的熵（平均惊讶）在分布是均匀的时最大化。所有等级都被均等使用的评分量表传达最多的信息。大多数评分聚类在5的量表传达很少——评分几乎没有携带信息。

他的实际建议：使用分配给你的任何量表的整个动态范围。如果你被给予一个1到10的量表，不要把它当作1到6。这样做会减少你的影响力并降低你的评分的信息内容。

两位教授以0-100的量表评分。教授A仅使用70-90的范围（压缩到20个点）。教授B使用完整的0-100范围（使用100个点）。假设每位教授的成绩分布在他们使用的范围内是均匀的。

使用熵公式H = log₂(n)计算n个等概率结果的均匀分布，计算每位教授单个成绩的信息内容（比特）。教授B的成绩比教授A的成绩携带多少倍的信息？这对收到两位教授成绩的研究生招生委员会意味着什么？