English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

Gast
1 / ?

Wie IQ eine Normalverteilung erhält

Hamming eröffnet Kapitel 29 mit einer sorgfältigen Analyse der IQ-Testung.

Die Behauptung: Intelligenz folgt einer Normalverteilung in der Bevölkerung. Messung: Zeichnen Sie Werte auf einer kumulativen Wahrscheinlichkeitsskala auf (Wahrscheinlichkeitspapier). Die Werte fallen auf eine gerade Linie – was eine Normalverteilung anzeigt.

Das Problem, das Hamming erkennt: Dies ist keine Entdeckung. Es ist eine Konstruktion. Der IQ-Test wird kalibriert, indem die Rohdaten genommen und eine monotone Transformation angewendet wird, die die kumulative Verteilung auf die normale Wahrscheinlichkeitsskala zwingt. Dann werden die resultierenden Werte erklärt, Intelligenz zu messen, die als das definiert wird, was der kalibrierte Test misst.

Ergebnis: Intelligenz, definiert als das, was dieser Test misst, ist normalverteilt. Natürlich ist sie das – sie wurde so entworfen. Die Normalverteilung ist keine Eigenschaft von Intelligenz in der Welt; sie ist eine Eigenschaft des Kalibrierverfahrens.

Hammings Verallgemeinerung: Du bekommst, was du misst. Das Instrument, das Kalibrierverfahren und die Definition sind nicht unabhängig. Sie bilden eine geschlossene Schleife. Das, was das Instrument misst, wird zur Definition dessen, was real ist.

Sein Beispiel mit der Analysisklausur: Er kann fast jede Notenverteilung produzieren, die er möchte, indem er die Schwierigkeitsverteilung der Fragen wählt. Eine durchgehend schwere Klausur erzeugt eine bimodale Verteilung (Studenten kennen es oder nicht). Eine gemischte Klausur erzeugt eine Glockenkurve. Die Verteilung ist ein Artefakt des Testdesigns, keine Entdeckung über die Studenten.

Goodharts Gesetz: Wenn Metriken zu Zielen werden

Die zirkuläre Schleife finden

Hammings Analyse offenbart eine dreistufige zirkuläre Definition:

1. Entwerfen Sie ein Instrument und ein Kalibrierverfahren.

2. Definieren Sie das Konstrukt als "das, was dieses Instrument misst".

3. Berichten Sie, dass das Konstrukt die in die Kalibrierung eingearbeitete Verteilungseigenschaft hat.

Finden Sie ein Mess- oder Klassifizierungssystem in einem Bereich, den Sie kennen, wo die gleiche zirkuläre Schleife funktioniert: Das Instrument oder Verfahren ist darauf ausgelegt, ein bestimmtes Ergebnis zu produzieren, & dieses Ergebnis wird dann als eine Entdeckung über die Welt berichtet. Identifizieren Sie die drei Schritte (Instrument, Definition, gemeldete Entdeckung) & erklären Sie, wie die Zirkularität jemanden irreführen könnte, der die Kalibrierungsgeschichte nicht kennt.

Wenn ein Maßstab zu einem Ziel wird

Hammings Formulierung, bevor Goodhart sie benannte: Wenn Sie ein Maß als Ziel verwenden, hört es auf, ein gültiges Maß zu sein. Der Akt der Zielgebung verfälscht die Metrik.

Der Mechanismus: Vor der Zielgebung korreliert das Maß mit dem zugrundeliegenden Wert. Nach der Zielgebung optimieren rationale Akteure das Maß direkt. Die Korrelation bricht, weil der einfachste Weg, das Maß zu verbessern, oft ist, es vom zugrundeliegenden Wert abzukoppeln.

Hammings Fälle:

- Körperzahl in Vietnam: Wird als Maß für militärischen Fortschritt verwendet. Soldaten optimierten die Körperzahl, indem sie nicht überprüfbare Objekte zählten. Die Metrik stieg; militärischer Fortschritt nicht.

- BNP-Wachstum: Wird als Maß für wirtschaftliches Wohlbefinden verwendet. BNP-Wachstum kann durch die Herstellung von Dingen mit negativem Wert erreicht werden (Verschmutzungsbereinigung, militärische Aufrüstung, Gefängniskonstruktion). Die Metrik trennte sich vom Wohlbefinden.

- Testergebnisse: Wird als Maß für Lernen verwendet. Schulen unterrichten nach dem Test. Die Werte steigen; das Verständnis des zugrundeliegenden Fachs möglicherweise nicht.

Hammings Lösung: (1) ändern Sie die Metrik regelmäßig, bevor die Menschen sie vollständig optimieren; (2) verwenden Sie mehrere Metriken gleichzeitig — es ist schwieriger, alle auf einmal zu optimieren; (3) verlassen Sie sich niemals auf eine einzelne Metrik für eine wichtige Entscheidung.

Identifizieren Sie den Verfälschungsmechanismus

Eine Softwareorganisation misst die Entwicklerproduktivität, indem sie Codezeilen (LOC) pro Woche zählt. Zunächst korreliert LOC mit Produktivität – aktive Entwickler schreiben mehr Code als inaktive.

Beschreiben Sie spezifisch, wie die LOC-Metrik verfälscht wird, wenn sie als Leistungsziel verwendet wird. Nennen Sie mindestens drei konkrete Verhaltensweisen, die rationale Entwickler annehmen würden, um LOC zu optimieren, ohne die Produktivität zu verbessern. Beschreiben Sie dann eine Multi-Metrik-Alternative, die schwieriger zu verfälschen wäre, & erklären Sie, warum sie schwieriger zu verfälschen ist.

Das Problem der dynamischen Reichweite

Hamming hebt ein subtiles Messproblem auf: Bewertungsskalen haben eine dynamische Reichweite, & die meisten Menschen verwenden sie nicht.

Beispiel: eine 1-10-Skala, wobei 5 Durchschnitt ist. Die meisten Bewerter verwenden 4, 5 & 6, gehen niemals zu 1 oder 9. Die dynamische Reichweite ihrer Bewertungen liegt effektiv bei 3 (von 4 zu 6), auch wenn die Skala 10 bereitstellt.

Die Folge: Ein Bewerter, der den vollen Bereich verwendet, hat 3× Einfluss auf eine gemittelte Bewertung als einer, der auf die Mitte komprimiert. Wenn Sie etwas, das Ihnen nicht gefällt, mit 2 bewerten (voller Bereich), während der andere Bewerter dem, was sie mögen, eine 6 gibt (komprimierter Bereich), ist der Durchschnitt 4 – Ihre Abneigung überwiegt ihre Zustimmung, obwohl beide gleiche Stimme im Design des Bewertungssystems haben.

Hammings Informationstheorie-Verbindung: Die Entropie (durchschnittliche Überraschung) einer Verteilung wird maximiert, wenn die Verteilung gleichmäßig ist. Eine Bewertungsskala, bei der alle Noten gleich verwendet werden, kommuniziert die maximale Information. Eine Skala, bei der die meisten Bewertungen bei 5 geclustert sind, kommuniziert sehr wenig – die Bewertungen enthalten fast keine Information.

Sein praktischer Rat: Verwenden Sie die gesamte dynamische Reichweite jeder Skala, die Ihnen zugewiesen wird. Wenn Ihnen eine Skala von 1 bis 10 gegeben wird, behandeln Sie sie nicht als 1 bis 6. Dies zu tun, reduziert Ihren Einfluss & reduziert den Informationsgehalt Ihrer Bewertungen.

Information & dynamische Reichweite

Zwei Professoren bewerten auf einer 0-100-Skala. Professor A verwendet nur den Bereich 70-90 (komprimiert auf 20 Punkte). Professor B verwendet den vollen Bereich 0-100 (nutzt 100 Punkte). Angenommen, jede Professoren-Notenverteilung ist gleichmäßig innerhalb des verwendeten Bereichs.

Berechnen Sie mit der Entropieformel H = log₂(n) für eine gleichmäßige Verteilung über n gleich wahrscheinliche Ergebnisse den Informationsgehalt (in Bits) einer einzelnen Note von jedem Professor. Wie viel mal mehr Information trägt die Note von Professor B als die von Professor A? Was bedeutet das für ein Auswahlkomitee für Graduiertenschulen, das Noten von beiden Professoren erhält?