English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

访客
1 / ?
返回课程列表

智商如何获得正态分布

Hamming用第29章仔细剖析了智商测试。

主张:智力在人群中遵循正态分布。测量:在累积概率尺度(概率纸)上绘制分数。分数落在一条直线上——表示正态分布。

Hamming发现的问题:这不是发现。这是构造。智商测试通过取原始分数并应用单调变换来校准,该变换将累积分布强制放在正态概率尺度上。然后,所得分数被宣称测量智力,而智力被定义为校准后的测试衡量的东西。

结果:智力,定义为该测试测量的东西,是正态分布的。当然是的——它被设计成这样。正态分布不是世界中智力的属性;它是校准程序的属性。

Hamming的推广:你测量什么就得到什么。 仪器、校准程序和定义不是独立的。它们形成一个闭合循环。仪器测量的东西变成了什么是真实的定义。

他的微积分考试例子:通过选择问题的难度分布,他几乎可以产生任何他想要的成绩分布。一致困难的考试产生双峰分布(学生要么知道要么不知道)。混合考试产生钟形曲线。分布是测试设计的产物,而不是对学生的发现。

Goodhart定律:当指标成为目标时

发现循环回路

Hamming的分析揭示了一个三步的循环定义:

1. 设计一个仪器和校准程序。

2. 将构造定义为'该仪器衡量的东西'。

3. 报告该构造具有校准中设计的分布属性。

在你熟悉的领域中找到一个相同循环回路运作的测量或分类系统:仪器或程序被设计成产生某个特定结果,然后该结果被报告为关于世界的发现。找出三个步骤(仪器、定义、报告的发现),并解释循环性如何可能误导不知道校准历史的人。

当指标成为目标时

Hamming的表述,在Goodhart命名之前:当你使用一个指标作为目标时,它就不再是有效的指标。针对目标的行为腐蚀了指标。

机制:在针对之前,指标与基础值相关。针对之后,理性的行为者直接优化指标。相关性破裂,因为改进指标的最简单方法通常是将其与基础值分离。

Hamming的案例:

- 越南的尸体计数:用作军事进展的指标。士兵通过计数无法验证的对象来优化尸体计数。指标上升;军事进展没有。

- 国民生产总值增长:用作经济福祉的指标。国民生产总值增长可以通过生产负值的东西(污染清理、军事建设、监狱建设)来实现。指标与福祉脱离。

- 测试分数:用作学习的指标。学校教学针对测试。分数上升;对基础主题的理解可能没有。

Hamming的解决方案:(1)定期改变指标,在人们完全优化之前;(2)同时使用多个指标——同时优化所有指标更困难;(3)对任何重要决定都不要依赖单一指标。

识别腐蚀机制

一个软件组织通过计数每周写的代码行数(LOC)来衡量开发人员的生产力。最初,LOC与生产力相关——活跃的开发人员写的代码比不活跃的多。

具体描述当LOC指标被用作性能目标时如何受到腐蚀。列出至少三种具体行为,理性的开发人员会采纳这些行为来优化LOC而不改进生产力。然后描述一个更难受腐蚀的多指标替代方案,并解释为什么它更难。

动态范围问题

Hamming提出了一个微妙的测量问题:评分量表有动态范围,大多数人不使用它。

例子:一个1-10的量表,其中5是平均值。大多数评分者使用4、5和6,从不冒险到1或9。他们的评分的动态范围实际上是3(从4到6),尽管量表提供了10。

后果:使用完整范围的评分者对平均评分的影响是压缩到中间的评分者的3倍。如果你对你不喜欢的东西评分为2(完整范围),而另一个评分者对他们喜欢的东西评分为6(压缩范围),平均值是4——你的不喜欢超过了他们的喜欢,尽管两者在评分系统的设计中都有平等的声音。

Hamming的信息论联系:分布的熵(平均惊讶)在分布是均匀的时最大化。所有等级都被均等使用的评分量表传达最多的信息。大多数评分聚类在5的量表传达很少——评分几乎没有携带信息。

他的实际建议:使用分配给你的任何量表的整个动态范围。如果你被给予一个1到10的量表,不要把它当作1到6。这样做会减少你的影响力并降低你的评分的信息内容。

信息和动态范围

两位教授以0-100的量表评分。教授A仅使用70-90的范围(压缩到20个点)。教授B使用完整的0-100范围(使用100个点)。假设每位教授的成绩分布在他们使用的范围内是均匀的。

使用熵公式H = log₂(n)计算n个等概率结果的均匀分布,计算每位教授单个成绩的信息内容(比特)。教授B的成绩比教授A的成绩携带多少倍的信息?这对收到两位教授成绩的研究生招生委员会意味着什么?