un — Hamming Kapitel 29: Du bekommst, was du messen

un

guest

1 / ?

back to lessons

Wie der Intelligenzquotient seine Normalverteilung erhält

Hamming eröffnet Kapitel 29 mit einer sorgfältigen Zerlegung von IQ-Testungen.

Die Behauptung: Intelligenz folgt einer Normalverteilung in der Bevölkerung. Messung: Plotzen der Scores auf einer kumulativen Wahrscheinlichkeits-skala (Wahrscheinlichkeitspapier). Die Scores fallen auf eine Gerade - was eine Normalverteilung zeigt.

Das Problem, das Hamming identifiziert: dies ist keine Entdeckung. Es ist eine Konstruktion. Der IQ-Test wird kalibriert , indem man die Rohscores aufnimmt und eine monoton wachsende Transformation anwendet, die die kumulative Verteilung auf die normale Wahrscheinlichkeits-skala zwingt. Dann werden die resultierenden Scores als Maß für Intelligenz deklariert, die als das definiert wird, was der kalibrierte Test misst.

Ergebnis: Intelligenz, definiert als das, was dieser Test misst, ist normalverteilt. Natürlich ist es das - es wurde dazu entworfen. Die Normalverteilung ist keine Eigenschaft der Intelligenz in der Welt; es ist eine Eigenschaft der Kalibrierungsverfahren.

Hamming's allgemeine Aussage: du bekommst, was du messen. Das Instrument, das Kalibrierungsverfahren und die Definition sind nicht unabhängig. Sie bilden einen geschlossenen Kreis. Was das Instrument misst, wird zur Definition dessen, was real ist.

Sein Prüfungsexample: Er kann fast jede Verteilung von Noten erzeugen, die er will, indem er die Schwierigkeitsverteilung der Fragen wählt. Eine durchgehend schwierige Prüfung erzeugt eine bikvale Verteilung (die Schüler wissen es oder nicht). Eine gemischte Prüfung erzeugt eine Glockenkurve. Die Verteilung ist ein Artefakt der Testgestaltung und nicht eine Entdeckung über die Schüler.

Goodharts Gesetz: Wenn Metriken zu Zielen werden

Das zirkuläre Schema finden

Hamming's Analyse zeigt ein dreistufiges zirkuläres Definitionsschema:

1. Entwerfe ein Instrument und ein Kalibrierungsverfahren.

2. Definiere den Konstrukt als 'was dieses Instrument misst'.

3. Berichte, dass der Konstrukt die im Kalibrierungsverfahren vorgesehene Verteilungseigenschaft hat.

Finde eine Mess- oder Klassifikationssystem in einem Bereich, den du kennst, in dem das gleiche zirkulare Schema funktioniert: Das Instrument oder Verfahren wird entworfen, um ein bestimmtes Ergebnis zu erzeugen, und dann wird dieses Ergebnis als Entdeckung über die Welt gemeldet. Identifiziere die drei Schritte (Instrument, Definition, gemeldete Entdeckung) und erkläre, wie die Zirkularität jemanden, der die Kalibrierungsgeschichte nicht kennt, täuschen könnte.

Wenn eine Messung ein Ziel wird

Hamming's Formulierung, bevor Goodhart es benannte: Wenn Sie eine Messung als Ziel verwenden, verliert sie ihre Gültigkeit als Messung. Das Zielverfolgen verändert die Metrik.

Das Mechanismus: Vor der Zielverfolgung korreliert die Metrik mit dem zugrunde liegenden Wert. Nachdem das Ziel erreicht wurde, optimieren rationale Akteure die Metrik direkt. Die Korrelation bricht auf, weil es oft am einfachsten ist, die Metrik zu verbessern, indem sie von dem zugrunde liegenden Wert getrennt wird.

Hamming's Fälle:

- Kriegstote im Vietnamkrieg: als Maß für militärischen Fortschritt verwendet. Soldaten optimierten die Kriegstoten, indem sie unverifizierbare Objekte zählten. Die Metrik stieg; militärischer Fortschritt nicht.

- Wachstum des BIP: als Maß für wirtschaftliches Wohlbefinden verwendet. BIP-Wachstum kann durch die Produktion von Dingen mit negativem Wert erreicht werden (Beseitigung von Umweltverschmutzung, militärische Aufstockung, Bau von Gefängnissen). Die Metrik wurde von dem Wohlbefinden getrennt.

- Leistungsprüfungen: als Maß für das Erlernen verwendet. Schulen lehren nach dem Prüfungsschema. Die Leistungen steigen; das Verständnis des zugrunde liegenden Faches könnte nicht steigen.

Hamming's Lösung: (1) ändere die Metrik regelmäßig, bevor Menschen sie vollständig optimieren; (2) verwende gleichzeitig mehrere Metriken - es ist schwieriger, alle auf einmal zu optimieren; (3) verlasse dich nie auf eine einzelne Metrik für eine wichtige Entscheidung.

Identifiziere den Verzerrungsmechanismus

Eine Softwareorganisation misst die Entwicklerproduktivität durch die Anzahl der geschriebenen Codezeilen (LOC) pro Woche. Ursprünglich korreliert LOC mit Produktivität - aktive Entwickler schreiben mehr Code als inaktive.

Beschreiben Sie spezifisch, wie das LOC-Metrikergebnis korrupt wird, wenn es als Leistungsziel verwendet wird. Nennen Sie mindestens drei konkrete Verhaltensweisen, die rationale Entwickler annehmen würden, um LOC ohne Produktivitätssteigerung zu optimieren. Schildern Sie dann eine Mehrmengenalternative, die schwerer zu verfälschen wäre, und erklären Sie, warum sie schwerer zu verfälschen ist.

Das Problem des dynamischen Bereichs

Hamming bringt ein subtils Messproblem hervor: Bewertungsskalen haben einen dynamischen Bereich, und die meisten Menschen nutzen ihn nicht.

Beispiel: Eine 1-10-Skala, bei der 5 durchschnittlich ist. Die meisten Bewertenden nutzen 4, 5 und 6, nie 1 oder 9. Der dynamische Bereich ihrer Bewertungen beträgt effektiv 3 (von 4 bis 6), obwohl die Skala 10 bereitstellt.

Die Folge: Ein Rater, der das gesamte Spektrum nutzt, hat 3× den Einfluss auf eine durchschnittliche Bewertung im Vergleich zu einem, der sich auf das Mittelfeld beschränkt. Wenn Sie etwas ablehnenswert mit 2 (vollständiges Spektrum) bewerten, während der andere Rater etwas, das er mag, mit 6 (verkürztes Spektrum) bewertet, beträgt das Durchschnitt 4 - Ihre Ablehnung überwiegt ihre Zustimmung, obwohl beide gleiches Wort im Design des Bewertungssystems haben.

Hamming's Verbindung zur Informationstheorie: Die Entropie (durchschnittliche Überraschung) einer Verteilung wird maximiert, wenn die Verteilung gleichmäßig ist. Eine Bewertungsstufe, bei der alle Grade gleichmäßig verwendet werden, kommuniziert die maximale Information. Eine Skala, bei der sich die meisten Bewertungen im Bereich 5 konzentrieren, kommuniziert sehr wenig - die Bewertungen tragen fast keine Information.

Sein praktischer Rat: Nutzen Sie das gesamte dynamische Spektrum jeder Skala, die Ihnen zugewiesen wird. Wenn Ihnen eine Skala von 1 bis 10 gegeben wird, behandeln Sie sie nicht als 1 bis 6. Dies reduziert Ihren Einfluss und reduziert die Informationsmenge Ihrer Bewertungen.

Information und Dynamisches Spektrum

Zwei Professoren bewerten im Bereich von 0-100. Professor A nutzt nur den Bereich 70-90 (verkürzt auf 20 Punkte). Professor B nutzt das gesamte Spektrum 0-100 (verwendet 100 Punkte). Setzen Sie voraus, dass die Bewertungsverteilung jedes Professors gleichmäßig innerhalb ihres verwendeten Bereichs ist.

Verwenden Sie die Entropiefunktion H = log₂(n) für eine gleichmäßige Verteilung über n gleichwahrscheinliche Ergebnisse, um den Informationsgehalt (in Bits) einer einzelnen Bewertung von jedem Professor zu berechnen. Wie viel mehr Information trägt die Bewertung von Professor B als die von Professor A? Was bedeutet das für eine Promotionskommission, die beide Professoren Bewertungen erhält?