IQがどのように正規分布を得るか
ハミングは第29章をIQテストの慎重な解剖で開始します。
主張:知能は母集団で正規分布に従う。測定:スコアを累積確率スケール(確率紙)にプロットする。スコアは直線上に落ちます。これは正規分布を示しています。
ハミングが特定する問題:これは発見ではありません。これは構築です。IQテストは、生のスコアを取って、累積分布を正規確率スケールに強制する単調変換を適用することで較正されます。その後、結果のスコアは知能を測定すると宣言され、知能は較正されたテストが測定するものとして定義されます。
結果:知能(このテストが測定するものとして定義される)は正規分布しています。もちろんです。それはそうなるように設計されたのです。正規分布は世界の知能の性質ではありません。それは較正手順の性質です。
ハミングの一般化:あなたが測定するものがあなたが得るもの。 機器、較正手順、および定義は独立していません。これらは閉ループを形成します。機器が測定するものが、何が実在するかの定義になります。
彼の微積分試験の例:問題の難度分布を選ぶことで、彼はほぼ望む任意の成績分布を生成できます。均一に難しい試験は双峰分布を生成します(学生はそれを知っているか知らないかのいずれか)。混合試験はベルカーブを生成します。分布はテスト設計のアーティファクトであり、学生についての発見ではありません。
循環ループを見つける
ハミングの分析は3ステップの循環定義を明らかにします:
1. 機器と較正手順を設計する。
2. 構成要素を「この機器が測定するもの」として定義する。
3. 構成要素が較正に組み込まれた分布特性を持つことを報告する。
メトリクスがターゲットになるとき
ハミングの定式化(Goodhartが命名する前):メトリクスをターゲットとして使用するとき、それは有効なメトリクスではなくなります。ターゲット化の行為はメトリクスを破壊します。
メカニズム:ターゲット化する前に、メトリクスは基本的な値と関連付けられています。ターゲット化した後、理性的なアクターはメトリクスを直接最適化します。相関は破裂します。なぜなら、メトリクスを改善する最も簡単な方法はしばしば基本的な値から切り離すことだからです。
ハミングのケース:
- ベトナムでの兵員数:軍事的進歩の測定として使用されています。兵士は検証不可能なオブジェクトをカウントすることで兵員数を最適化しました。メトリクスは上昇しました。軍事的進歩はしませんでした。
- GNP成長:経済的幸福の測定として使用されています。GNP成長は負の価値(汚染清掃、軍事構築、刑務所建設)を生産することによって達成できます。メトリクスは幸福から分離しました。
- テストスコア:学習の測定として使用されています。学校はテストに教えます。スコアは上昇します。基本的な主題の理解はしないかもしれません。
ハミングの解決策:(1)人々がそれを完全に最適化する前に、メトリクスを定期的に変更する。(2)同時に複数のメトリクスを使用する — それらすべてを同時に最適化することはより難しい。(3)重要な決定に単一のメトリクスに頼らない。
破壊メカニズムを特定する
ソフトウェア組織は、1週間あたりに書かれたコード行数(LOC)を計算することで開発者の生産性を測定します。初期段階では、LOCは生産性と関連付けられています — 活動的な開発者は非アクティブな開発者よりも多くのコードを書きます。
動的範囲の問題
ハミングは微妙な測定問題を提起します:評定スケールは動的範囲を持っており、ほとんどの人はそれを使用しません。
例:1~10スケールで5は平均。ほとんどのレーターは4、5、6を使用し、1または9には決して行きません。彼らの評定の動的範囲は実質的に3(4から6まで)であり、スケールが10を提供していても。
結果:全範囲を使用するレーターは、平均評定に対して3倍の影響力を持つ者、1つに圧縮する者より。あなたが嫌いなものを2(全範囲)として評定し、別のレーターが彼らが好きなものを6(圧縮範囲)と与える場合、平均は4です — あなたの嫌いが彼らの好きを上回ります。スケール設計で等しいボイスを持つにもかかわらず。
ハミングの情報理論接続:分布のエントロピー(平均サプライズ)は、分布が均一なときに最大化されます。すべてのグレードが等しく使用される評定スケールは最大情報を通信します。ほとんどの評定が5でクラスター化するスケールはほとんど何も通信しません — 評定はほぼ情報を含みません。
彼の実践的なアドバイス:割り当てられたスケールの全動的範囲を使用してください。1から10のスケールが与えられている場合、1から6として扱わないでください。そうすることはあなたの影響力を減らし、あなたの評定の情報コンテンツを減らします。
情報と動的範囲
2人の教授が0~100スケールで採点します。教授Aは70~90のみの範囲を使用します(20ポイントに圧縮)。教授Bは完全な範囲0~100を使用します(100ポイントを使用)。各教授の成績分布は彼ら/彼女の使用範囲内で均一であると仮定します。