智商如何獲得正態分佈
漢明在第29章以仔細的分析開始討論智商測試。
聲稱:智力在人口中遵循正態分佈。測量:在累積概率尺度上繪製分數(概率紙)。分數落在一條直線上——表示正態分佈。
漢明指出的問題:這不是一個發現。這是一個建構。智商測試通過採取原始分數並應用單調變換來校準,該變換將累積分佈強制到正態概率尺度上。然後,所得分數被宣稱測量智力,而智力被定義為校準測試測量的內容。
結果:智力,定義為該測試測量的內容,是正態分佈。當然是的——它的設計就是如此。正態分佈不是世界上智力的特性;它是校準過程的特性。
漢明的推廣:你衡量什麼,就會得到什麼。 儀器、校準過程和定義不是獨立的。它們形成一個閉合迴圈。儀器測量的內容成為現實定義。
他的微積分考試示例:他可以通過選擇問題的難度分佈來產生幾乎任何他想要的等級分佈。統一困難的考試產生雙峰分佈(學生要麼知道,要麼不知道)。混合考試產生鐘形曲線。分佈是測試設計的產物,而不是關於學生的發現。
發現循環迴圈
漢明的分析揭示了三步循環定義:
1. 設計儀器和校準程序。
2. 將構造定義為「該儀器測量的內容」。
3. 報告該構造具有設計到校準中的分佈特性。
當測量成為目標時
漢明的公式,在葛德哈特命名之前:當你把測量用作目標時,它就不再是一個有效的測量。目標設定的行為會腐蝕指標。
機制:在目標設定之前,指標與基礎價值相關聯。目標設定後,理性參與者直接優化指標。相關性被破壞,因為改進指標的最簡單方法通常是將其與基礎價值脫鈎。
漢明的案例:
- 越南的身體計數:用作軍事進度的衡量。士兵通過計算無法驗證的物體來優化身體計數。指標上升;軍事進度沒有。
- 國民生產總值增長:用作經濟福祉的衡量。國民生產總值增長可以通過生產具有負值的東西來實現(污染清理、軍事建設、監獄建設)。指標與福祉脫離。
- 測試分數:用作學習的衡量。學校教授測試。分數上升;對基礎科目的理解可能不會。
漢明的解決方案:(1) 經常更改指標,在人們完全優化之前;(2) 同時使用多個指標——同時優化所有這些更困難;(3) 不要依賴任何重要決策的單一指標。
識別腐蝕機制
一個軟件組織通過計算每週編寫的代碼行數 (LOC) 來衡量開發人員的生產力。最初,LOC 與生產力相關聯——活躍的開發人員編寫的代碼比不活躍的開發人員多。
動態範圍問題
漢明提出了一個微妙的測量問題:評級量表有動態範圍,大多數人不使用它。
例子:1-10 級,其中 5 是平均值。大多數評級人員使用 4、5 和 6,永遠不會冒險到 1 或 9。他們評級的有效動態範圍是 3(從 4 到 6),儘管量表提供 10。
結果是:使用全範圍的評級人員對平均評級的影響是壓縮到中間的人的 3 倍。如果你對不喜歡的東西評級為 2(全範圍),而另一位評級人員給他們喜歡的東西評級為 6(壓縮範圍),平均值是 4——你的不喜歡勝過他們的喜歡,儘管兩者在評級系統的設計中有平等的聲音。
漢明的信息論連接:當分佈是均勻的時,分佈的熵(平均驚訝)是最大化的。所有等級都被平均使用的評級量表傳達最大信息。大多數評級聚集在 5 的量表傳達很少——評級幾乎不包含信息。
他的實際建議:使用分配給你的任何量表的整個動態範圍。如果你得到 1 到 10 的量表,不要將其視為 1 到 6。這樣做會減少你的影響力並減少你評級的信息內容。
信息和動態範圍
兩位教授在 0-100 級上評級。教授 A 僅使用 70-90 範圍(壓縮到 20 點)。教授 B 使用全範圍 0-100(使用 100 點)。假設每位教授的等級分佈在他們使用的範圍內是均勻的。