智商如何获得正态分布
Hamming用第29章仔细剖析了智商测试。
主张:智力在人群中遵循正态分布。测量:在累积概率尺度(概率纸)上绘制分数。分数落在一条直线上——表示正态分布。
Hamming发现的问题:这不是发现。这是构造。智商测试通过取原始分数并应用单调变换来校准,该变换将累积分布强制放在正态概率尺度上。然后,所得分数被宣称测量智力,而智力被定义为校准后的测试衡量的东西。
结果:智力,定义为该测试测量的东西,是正态分布的。当然是的——它被设计成这样。正态分布不是世界中智力的属性;它是校准程序的属性。
Hamming的推广:你测量什么就得到什么。 仪器、校准程序和定义不是独立的。它们形成一个闭合循环。仪器测量的东西变成了什么是真实的定义。
他的微积分考试例子:通过选择问题的难度分布,他几乎可以产生任何他想要的成绩分布。一致困难的考试产生双峰分布(学生要么知道要么不知道)。混合考试产生钟形曲线。分布是测试设计的产物,而不是对学生的发现。
发现循环回路
Hamming的分析揭示了一个三步的循环定义:
1. 设计一个仪器和校准程序。
2. 将构造定义为'该仪器衡量的东西'。
3. 报告该构造具有校准中设计的分布属性。
当指标成为目标时
Hamming的表述,在Goodhart命名之前:当你使用一个指标作为目标时,它就不再是有效的指标。针对目标的行为腐蚀了指标。
机制:在针对之前,指标与基础值相关。针对之后,理性的行为者直接优化指标。相关性破裂,因为改进指标的最简单方法通常是将其与基础值分离。
Hamming的案例:
- 越南的尸体计数:用作军事进展的指标。士兵通过计数无法验证的对象来优化尸体计数。指标上升;军事进展没有。
- 国民生产总值增长:用作经济福祉的指标。国民生产总值增长可以通过生产负值的东西(污染清理、军事建设、监狱建设)来实现。指标与福祉脱离。
- 测试分数:用作学习的指标。学校教学针对测试。分数上升;对基础主题的理解可能没有。
Hamming的解决方案:(1)定期改变指标,在人们完全优化之前;(2)同时使用多个指标——同时优化所有指标更困难;(3)对任何重要决定都不要依赖单一指标。
识别腐蚀机制
一个软件组织通过计数每周写的代码行数(LOC)来衡量开发人员的生产力。最初,LOC与生产力相关——活跃的开发人员写的代码比不活跃的多。
动态范围问题
Hamming提出了一个微妙的测量问题:评分量表有动态范围,大多数人不使用它。
例子:一个1-10的量表,其中5是平均值。大多数评分者使用4、5和6,从不冒险到1或9。他们的评分的动态范围实际上是3(从4到6),尽管量表提供了10。
后果:使用完整范围的评分者对平均评分的影响是压缩到中间的评分者的3倍。如果你对你不喜欢的东西评分为2(完整范围),而另一个评分者对他们喜欢的东西评分为6(压缩范围),平均值是4——你的不喜欢超过了他们的喜欢,尽管两者在评分系统的设计中都有平等的声音。
Hamming的信息论联系:分布的熵(平均惊讶)在分布是均匀的时最大化。所有等级都被均等使用的评分量表传达最多的信息。大多数评分聚类在5的量表传达很少——评分几乎没有携带信息。
他的实际建议:使用分配给你的任何量表的整个动态范围。如果你被给予一个1到10的量表,不要把它当作1到6。这样做会减少你的影响力并降低你的评分的信息内容。
信息和动态范围
两位教授以0-100的量表评分。教授A仅使用70-90的范围(压缩到20个点)。教授B使用完整的0-100范围(使用100个点)。假设每位教授的成绩分布在他们使用的范围内是均匀的。