Jak IQ Uzyskuje Swój Rozkład Normalny
Hamming otwiera Rozdział 29 starannym rozborem testowania IQ.
Twierdzenie: inteligencja przebiega rozkład normalny w populacji. Pomiar: wykreśl wyniki na skali skumulowanego prawdopodobieństwa (papier probabilistyczny). Wyniki spadają na linię prostą — wskazując na rozkład normalny.
Problem, który Hamming zidentyfikował: to nie jest odkrycie. To jest konstrukcja. Test IQ jest kalibrowany poprzez wzięcie surowych wyników i zastosowanie transformacji monotonicznej, która zmusza skumulowany rozkład na skalę normalnego prawdopodobieństwa. Następnie wynikające wyniki są deklarowane jako pomiar inteligencji, która jest zdefiniowana jako to, co kalibrowany test mierzy.
Wynik: inteligencja, zdefiniowana jako to, co ten test mierzy, ma rozkład normalny. Oczywiście tak jest — została zaprojektowana, aby tak była. Rozkład normalny nie jest właściwością inteligencji na świecie; to właściwość procedury kalibracji.
Uogólnienie Hamminga: dostajesz to, co mierzysz. Instrument, procedura kalibracji i definicja nie są niezależne. Tworzą zamkniętą pętlę. To, co instrument mierzy, staje się definicją tego, co jest rzeczywiste.
Jego przykład egzaminu z rachunku: może uzyskać prawie każdy rozkład ocen, jaki chce, wybierając rozkład trudności pytań. Równomiernie trudny egzamin daje rozkład bimodalny (uczniowie albo to wiedzą, albo nie). Egzamin mieszany daje krzywą dzwonową. Rozkład jest artefaktem projektu testu, a nie odkryciem na temat uczniów.
Znalezienie Pętli Cyklicznej
Analiza Hamminga ujawnia trzystopniową definicję cykliczną:
1. Zaprojektuj instrument i procedurę kalibracji.
2. Zdefiniuj konstrukt jako 'to, co ten instrument mierzy.'
3. Zgłoś, że konstrukt ma właściwość dystrybucyjną zaprojektowaną w kalibracji.
Kiedy Miara Staje Się Celem
Sformułowanie Hamminga, zanim Goodhart je nazwał: kiedy używasz miary jako celu, przestaje być ona ważną miarą. Akt celowania korumpuje metrykę.
Mechanizm: przed celoowaniem metryka koreluje z wartością bazową. Po celoowaniu racjonalni aktorzy optymalizują metrykę bezpośrednio. Korelacja się przerywa, ponieważ najłatwiejszy sposób na poprawę metryki to często oddzielenie jej od wartości bazowej.
Przypadki Hamminga:
- Liczba zabitych w Wietnamie: używana jako miara postępu wojskowego. Żołnierze optymalizowali liczbę zabitych, licząc nieweryfikowalne obiekty. Metryka wzrosła; postęp wojskowy nie.
- Wzrost PNB: używany jako miara dobrobytu ekonomicznego. Wzrost PNB można osiągnąć poprzez produkcję rzeczy o ujemnej wartości (oczyszczanie zanieczyszczeń, budowa wojskowa, budowa więzień). Metryka oddzielona od dobrobytu.
- Wyniki testów: używane jako miara nauki. Szkoły nauczają do testu. Wyniki rosną; zrozumienie przedmiotu może nie rosnąć.
Rozwiązanie Hamminga: (1) regularnie zmieniaj metrykę, zanim ludzie ją w pełni optymalizują; (2) jednocześnie używaj wielu metryk — trudniej jest optymalizować je wszystkie naraz; (3) nigdy nie polegaj na jednej metryce dla żadnej ważnej decyzji.
Zidentyfikuj Mechanizm Korupcji
Organizacja oprogramowania mierzy produktywność dewelopera, licząc linie kodu (LOC) napisane na tydzień. Początkowo LOC koreluje z produktywnością — aktywni deweloperzy piszą więcej kodu niż nieaktywni.
Problem Zakresu Dynamicznego
Hamming podnosi subtelny problem pomiaru: skale oceny mają zakres dynamiczny, a większość ludzi go nie używa.
Przykład: skala 1-10, gdzie 5 jest średnią. Większość oceniających używa 4, 5 i 6, nigdy nie sięgając do 1 lub 9. Zakres dynamiczny ich ocen wynosi efektywnie 3 (od 4 do 6), chociaż skala zapewnia 10.
Konsekwencja: oceniający, który używa pełnego zakresu, ma 3× większy wpływ na średnią ocenę niż ten, który kompresuje do środka. Jeśli coś, co ci się nie podoba, oceniasz na 2 (pełny zakres), a drugi oceniający daje to, co mu się podoba, ocenę 6 (skompresowany zakres), średnia wynosi 4 — twoja niechęć przeważa ich podoba, chociaż obaj mają równy głos w projekcie systemu oceny.
Połączenie Hamminga z teorią informacji: entropia (średnie zaskoczenie) rozkładu jest maksymalizowana, gdy rozkład jest równomierny. Skala oceny, gdzie wszystkie oceny są używane równomiernie, komunikuje maksimum informacji. Skala, gdzie większość ocen skupia się na 5, komunikuje bardzo mało — oceny noszą prawie żadnych informacji.
Jego praktyczna rada: używaj całego zakresu dynamicznego każdej skali, którą ci przydzielono. Jeśli masz skalę od 1 do 10, nie traktuj jej jako 1 do 6. Zrobienie tego zmniejsza twój wpływ i zmniejsza zawartość informacji twoich ocen.
Informacja i Zakres Dynamiczny
Dwaj profesorowie oceniają na skali 0-100. Profesor A używa tylko zakresu 70-90 (kompresuje do 20 punktów). Profesor B używa pełnego zakresu 0-100 (używa 100 punktów). Załóż, że rozkład ocen każdego profesora jest równomierny w ich używanym zakresie.