un — 漢明第29章：你衡量什麼，就會得到什麼

un

guest

1 / ?

back to lessons

漢明在第29章以仔細的分析開始討論智商測試。

聲稱：智力在人口中遵循正態分佈。測量：在累積概率尺度上繪製分數（概率紙）。分數落在一條直線上——表示正態分佈。

漢明指出的問題：這不是一個發現。這是一個建構。智商測試通過採取原始分數並應用單調變換來校準，該變換將累積分佈強制到正態概率尺度上。然後，所得分數被宣稱測量智力，而智力被定義為校準測試測量的內容。

結果：智力，定義為該測試測量的內容，是正態分佈。當然是的——它的設計就是如此。正態分佈不是世界上智力的特性；它是校準過程的特性。

漢明的推廣：你衡量什麼，就會得到什麼。 儀器、校準過程和定義不是獨立的。它們形成一個閉合迴圈。儀器測量的內容成為現實定義。

他的微積分考試示例：他可以通過選擇問題的難度分佈來產生幾乎任何他想要的等級分佈。統一困難的考試產生雙峰分佈（學生要麼知道，要麼不知道）。混合考試產生鐘形曲線。分佈是測試設計的產物，而不是關於學生的發現。

葛德哈特定律：當指標成為目標時

漢明的分析揭示了三步循環定義：

1. 設計儀器和校準程序。

2. 將構造定義為「該儀器測量的內容」。

3. 報告該構造具有設計到校準中的分佈特性。

找到一個你知道的領域中的測量或分類系統，其中同樣的循環迴圈存在：儀器或程序被設計為產生某個特定結果，然後該結果被報告為關於世界的發現。識別三個步驟（儀器、定義、報告的發現），並解釋圓形性如何會誤導不知道校準歷史的人。

漢明的公式，在葛德哈特命名之前：當你把測量用作目標時，它就不再是一個有效的測量。目標設定的行為會腐蝕指標。

機制：在目標設定之前，指標與基礎價值相關聯。目標設定後，理性參與者直接優化指標。相關性被破壞，因為改進指標的最簡單方法通常是將其與基礎價值脫鈎。

漢明的案例：

- 越南的身體計數：用作軍事進度的衡量。士兵通過計算無法驗證的物體來優化身體計數。指標上升；軍事進度沒有。

- 國民生產總值增長：用作經濟福祉的衡量。國民生產總值增長可以通過生產具有負值的東西來實現（污染清理、軍事建設、監獄建設）。指標與福祉脫離。

- 測試分數：用作學習的衡量。學校教授測試。分數上升；對基礎科目的理解可能不會。

漢明的解決方案：(1) 經常更改指標，在人們完全優化之前；(2) 同時使用多個指標——同時優化所有這些更困難；(3) 不要依賴任何重要決策的單一指標。

一個軟件組織通過計算每週編寫的代碼行數 (LOC) 來衡量開發人員的生產力。最初，LOC 與生產力相關聯——活躍的開發人員編寫的代碼比不活躍的開發人員多。

具體說明當 LOC 指標被用作性能目標時，它是如何被腐蝕的。至少列出三種理性開發人員為了優化 LOC 而不改進生產力而採取的具體行為。然後描述一個多指標替代方案，該方案將更難腐蝕，並解釋為什麼更難。

漢明提出了一個微妙的測量問題：評級量表有動態範圍，大多數人不使用它。

例子：1-10 級，其中 5 是平均值。大多數評級人員使用 4、5 和 6，永遠不會冒險到 1 或 9。他們評級的有效動態範圍是 3（從 4 到 6），儘管量表提供 10。

結果是：使用全範圍的評級人員對平均評級的影響是壓縮到中間的人的 3 倍。如果你對不喜歡的東西評級為 2（全範圍），而另一位評級人員給他們喜歡的東西評級為 6（壓縮範圍），平均值是 4——你的不喜歡勝過他們的喜歡，儘管兩者在評級系統的設計中有平等的聲音。

漢明的信息論連接：當分佈是均勻的時，分佈的熵（平均驚訝）是最大化的。所有等級都被平均使用的評級量表傳達最大信息。大多數評級聚集在 5 的量表傳達很少——評級幾乎不包含信息。

他的實際建議：使用分配給你的任何量表的整個動態範圍。如果你得到 1 到 10 的量表，不要將其視為 1 到 6。這樣做會減少你的影響力並減少你評級的信息內容。

兩位教授在 0-100 級上評級。教授 A 僅使用 70-90 範圍（壓縮到 20 點）。教授 B 使用全範圍 0-100（使用 100 點）。假設每位教授的等級分佈在他們使用的範圍內是均勻的。

使用熵公式 H = log₂(n) 對於 n 個等概率結果的均勻分佈，計算每位教授單個等級的信息內容（以比特為單位）。教授 B 的等級比教授 A 的等級多攜帶多少倍的信息？這對於接收兩位教授等級的研究生招生委員會意味著什麼？