Wie IQ eine Normalverteilung erhält
Hamming eröffnet Kapitel 29 mit einer sorgfältigen Analyse der IQ-Testung.
Die Behauptung: Intelligenz folgt einer Normalverteilung in der Bevölkerung. Messung: Zeichnen Sie Werte auf einer kumulativen Wahrscheinlichkeitsskala auf (Wahrscheinlichkeitspapier). Die Werte fallen auf eine gerade Linie – was eine Normalverteilung anzeigt.
Das Problem, das Hamming erkennt: Dies ist keine Entdeckung. Es ist eine Konstruktion. Der IQ-Test wird kalibriert, indem die Rohdaten genommen und eine monotone Transformation angewendet wird, die die kumulative Verteilung auf die normale Wahrscheinlichkeitsskala zwingt. Dann werden die resultierenden Werte erklärt, Intelligenz zu messen, die als das definiert wird, was der kalibrierte Test misst.
Ergebnis: Intelligenz, definiert als das, was dieser Test misst, ist normalverteilt. Natürlich ist sie das – sie wurde so entworfen. Die Normalverteilung ist keine Eigenschaft von Intelligenz in der Welt; sie ist eine Eigenschaft des Kalibrierverfahrens.
Hammings Verallgemeinerung: Du bekommst, was du misst. Das Instrument, das Kalibrierverfahren und die Definition sind nicht unabhängig. Sie bilden eine geschlossene Schleife. Das, was das Instrument misst, wird zur Definition dessen, was real ist.
Sein Beispiel mit der Analysisklausur: Er kann fast jede Notenverteilung produzieren, die er möchte, indem er die Schwierigkeitsverteilung der Fragen wählt. Eine durchgehend schwere Klausur erzeugt eine bimodale Verteilung (Studenten kennen es oder nicht). Eine gemischte Klausur erzeugt eine Glockenkurve. Die Verteilung ist ein Artefakt des Testdesigns, keine Entdeckung über die Studenten.
Die zirkuläre Schleife finden
Hammings Analyse offenbart eine dreistufige zirkuläre Definition:
1. Entwerfen Sie ein Instrument und ein Kalibrierverfahren.
2. Definieren Sie das Konstrukt als "das, was dieses Instrument misst".
3. Berichten Sie, dass das Konstrukt die in die Kalibrierung eingearbeitete Verteilungseigenschaft hat.
Wenn ein Maßstab zu einem Ziel wird
Hammings Formulierung, bevor Goodhart sie benannte: Wenn Sie ein Maß als Ziel verwenden, hört es auf, ein gültiges Maß zu sein. Der Akt der Zielgebung verfälscht die Metrik.
Der Mechanismus: Vor der Zielgebung korreliert das Maß mit dem zugrundeliegenden Wert. Nach der Zielgebung optimieren rationale Akteure das Maß direkt. Die Korrelation bricht, weil der einfachste Weg, das Maß zu verbessern, oft ist, es vom zugrundeliegenden Wert abzukoppeln.
Hammings Fälle:
- Körperzahl in Vietnam: Wird als Maß für militärischen Fortschritt verwendet. Soldaten optimierten die Körperzahl, indem sie nicht überprüfbare Objekte zählten. Die Metrik stieg; militärischer Fortschritt nicht.
- BNP-Wachstum: Wird als Maß für wirtschaftliches Wohlbefinden verwendet. BNP-Wachstum kann durch die Herstellung von Dingen mit negativem Wert erreicht werden (Verschmutzungsbereinigung, militärische Aufrüstung, Gefängniskonstruktion). Die Metrik trennte sich vom Wohlbefinden.
- Testergebnisse: Wird als Maß für Lernen verwendet. Schulen unterrichten nach dem Test. Die Werte steigen; das Verständnis des zugrundeliegenden Fachs möglicherweise nicht.
Hammings Lösung: (1) ändern Sie die Metrik regelmäßig, bevor die Menschen sie vollständig optimieren; (2) verwenden Sie mehrere Metriken gleichzeitig — es ist schwieriger, alle auf einmal zu optimieren; (3) verlassen Sie sich niemals auf eine einzelne Metrik für eine wichtige Entscheidung.
Identifizieren Sie den Verfälschungsmechanismus
Eine Softwareorganisation misst die Entwicklerproduktivität, indem sie Codezeilen (LOC) pro Woche zählt. Zunächst korreliert LOC mit Produktivität – aktive Entwickler schreiben mehr Code als inaktive.
Das Problem der dynamischen Reichweite
Hamming hebt ein subtiles Messproblem auf: Bewertungsskalen haben eine dynamische Reichweite, & die meisten Menschen verwenden sie nicht.
Beispiel: eine 1-10-Skala, wobei 5 Durchschnitt ist. Die meisten Bewerter verwenden 4, 5 & 6, gehen niemals zu 1 oder 9. Die dynamische Reichweite ihrer Bewertungen liegt effektiv bei 3 (von 4 zu 6), auch wenn die Skala 10 bereitstellt.
Die Folge: Ein Bewerter, der den vollen Bereich verwendet, hat 3× Einfluss auf eine gemittelte Bewertung als einer, der auf die Mitte komprimiert. Wenn Sie etwas, das Ihnen nicht gefällt, mit 2 bewerten (voller Bereich), während der andere Bewerter dem, was sie mögen, eine 6 gibt (komprimierter Bereich), ist der Durchschnitt 4 – Ihre Abneigung überwiegt ihre Zustimmung, obwohl beide gleiche Stimme im Design des Bewertungssystems haben.
Hammings Informationstheorie-Verbindung: Die Entropie (durchschnittliche Überraschung) einer Verteilung wird maximiert, wenn die Verteilung gleichmäßig ist. Eine Bewertungsskala, bei der alle Noten gleich verwendet werden, kommuniziert die maximale Information. Eine Skala, bei der die meisten Bewertungen bei 5 geclustert sind, kommuniziert sehr wenig – die Bewertungen enthalten fast keine Information.
Sein praktischer Rat: Verwenden Sie die gesamte dynamische Reichweite jeder Skala, die Ihnen zugewiesen wird. Wenn Ihnen eine Skala von 1 bis 10 gegeben wird, behandeln Sie sie nicht als 1 bis 6. Dies zu tun, reduziert Ihren Einfluss & reduziert den Informationsgehalt Ihrer Bewertungen.
Information & dynamische Reichweite
Zwei Professoren bewerten auf einer 0-100-Skala. Professor A verwendet nur den Bereich 70-90 (komprimiert auf 20 Punkte). Professor B verwendet den vollen Bereich 0-100 (nutzt 100 Punkte). Angenommen, jede Professoren-Notenverteilung ist gleichmäßig innerhalb des verwendeten Bereichs.