un — Hamming Rozdział 29: Dostajesz to, co mierzysz

un

gość

1 / ?

powrót do lekcji

Jak IQ Uzyskuje Swój Rozkład Normalny

Hamming otwiera Rozdział 29 starannym rozborem testowania IQ.

Twierdzenie: inteligencja przebiega rozkład normalny w populacji. Pomiar: wykreśl wyniki na skali skumulowanego prawdopodobieństwa (papier probabilistyczny). Wyniki spadają na linię prostą — wskazując na rozkład normalny.

Problem, który Hamming zidentyfikował: to nie jest odkrycie. To jest konstrukcja. Test IQ jest kalibrowany poprzez wzięcie surowych wyników i zastosowanie transformacji monotonicznej, która zmusza skumulowany rozkład na skalę normalnego prawdopodobieństwa. Następnie wynikające wyniki są deklarowane jako pomiar inteligencji, która jest zdefiniowana jako to, co kalibrowany test mierzy.

Wynik: inteligencja, zdefiniowana jako to, co ten test mierzy, ma rozkład normalny. Oczywiście tak jest — została zaprojektowana, aby tak była. Rozkład normalny nie jest właściwością inteligencji na świecie; to właściwość procedury kalibracji.

Uogólnienie Hamminga: dostajesz to, co mierzysz. Instrument, procedura kalibracji i definicja nie są niezależne. Tworzą zamkniętą pętlę. To, co instrument mierzy, staje się definicją tego, co jest rzeczywiste.

Jego przykład egzaminu z rachunku: może uzyskać prawie każdy rozkład ocen, jaki chce, wybierając rozkład trudności pytań. Równomiernie trudny egzamin daje rozkład bimodalny (uczniowie albo to wiedzą, albo nie). Egzamin mieszany daje krzywą dzwonową. Rozkład jest artefaktem projektu testu, a nie odkryciem na temat uczniów.

Prawo Goodharta: Kiedy Metryki Stają Się Celami

Znalezienie Pętli Cyklicznej

Analiza Hamminga ujawnia trzystopniową definicję cykliczną:

1. Zaprojektuj instrument i procedurę kalibracji.

2. Zdefiniuj konstrukt jako 'to, co ten instrument mierzy.'

3. Zgłoś, że konstrukt ma właściwość dystrybucyjną zaprojektowaną w kalibracji.

Znajdź system pomiarowy lub klasyfikacyjny w dziedzinie, którą znasz, gdzie działa ta sama pętla cykliczna: instrument lub procedura jest zaprojektowana, aby dać określony wynik, a następnie ten wynik jest zgłaszany jako odkrycie na temat świata. Zidentyfikuj trzy kroki (instrument, definicja, zgłoszone odkrycie) i wyjaśnij, jak cykliczność mogłaby wprowadzić w błąd kogoś, kto nie znał historii kalibracji.

Kiedy Miara Staje Się Celem

Sformułowanie Hamminga, zanim Goodhart je nazwał: kiedy używasz miary jako celu, przestaje być ona ważną miarą. Akt celowania korumpuje metrykę.

Mechanizm: przed celoowaniem metryka koreluje z wartością bazową. Po celoowaniu racjonalni aktorzy optymalizują metrykę bezpośrednio. Korelacja się przerywa, ponieważ najłatwiejszy sposób na poprawę metryki to często oddzielenie jej od wartości bazowej.

Przypadki Hamminga:

- Liczba zabitych w Wietnamie: używana jako miara postępu wojskowego. Żołnierze optymalizowali liczbę zabitych, licząc nieweryfikowalne obiekty. Metryka wzrosła; postęp wojskowy nie.

- Wzrost PNB: używany jako miara dobrobytu ekonomicznego. Wzrost PNB można osiągnąć poprzez produkcję rzeczy o ujemnej wartości (oczyszczanie zanieczyszczeń, budowa wojskowa, budowa więzień). Metryka oddzielona od dobrobytu.

- Wyniki testów: używane jako miara nauki. Szkoły nauczają do testu. Wyniki rosną; zrozumienie przedmiotu może nie rosnąć.

Rozwiązanie Hamminga: (1) regularnie zmieniaj metrykę, zanim ludzie ją w pełni optymalizują; (2) jednocześnie używaj wielu metryk — trudniej jest optymalizować je wszystkie naraz; (3) nigdy nie polegaj na jednej metryce dla żadnej ważnej decyzji.

Zidentyfikuj Mechanizm Korupcji

Organizacja oprogramowania mierzy produktywność dewelopera, licząc linie kodu (LOC) napisane na tydzień. Początkowo LOC koreluje z produktywnością — aktywni deweloperzy piszą więcej kodu niż nieaktywni.

Opisz szczegółowo, jak metryka LOC ulega korupcji, gdy jest używana jako cel wydajności. Wymień co najmniej trzy konkretne zachowania, które racjonalni deweloperzy adoptowaliby, aby optymalizować LOC bez poprawy produktywności. Następnie opisz alternatywę wielometrykową, którą byłoby trudniej korumpować, i wyjaśnij, dlaczego jest trudniejsza.

Problem Zakresu Dynamicznego

Hamming podnosi subtelny problem pomiaru: skale oceny mają zakres dynamiczny, a większość ludzi go nie używa.

Przykład: skala 1-10, gdzie 5 jest średnią. Większość oceniających używa 4, 5 i 6, nigdy nie sięgając do 1 lub 9. Zakres dynamiczny ich ocen wynosi efektywnie 3 (od 4 do 6), chociaż skala zapewnia 10.

Konsekwencja: oceniający, który używa pełnego zakresu, ma 3× większy wpływ na średnią ocenę niż ten, który kompresuje do środka. Jeśli coś, co ci się nie podoba, oceniasz na 2 (pełny zakres), a drugi oceniający daje to, co mu się podoba, ocenę 6 (skompresowany zakres), średnia wynosi 4 — twoja niechęć przeważa ich podoba, chociaż obaj mają równy głos w projekcie systemu oceny.

Połączenie Hamminga z teorią informacji: entropia (średnie zaskoczenie) rozkładu jest maksymalizowana, gdy rozkład jest równomierny. Skala oceny, gdzie wszystkie oceny są używane równomiernie, komunikuje maksimum informacji. Skala, gdzie większość ocen skupia się na 5, komunikuje bardzo mało — oceny noszą prawie żadnych informacji.

Jego praktyczna rada: używaj całego zakresu dynamicznego każdej skali, którą ci przydzielono. Jeśli masz skalę od 1 do 10, nie traktuj jej jako 1 do 6. Zrobienie tego zmniejsza twój wpływ i zmniejsza zawartość informacji twoich ocen.

Informacja i Zakres Dynamiczny

Dwaj profesorowie oceniają na skali 0-100. Profesor A używa tylko zakresu 70-90 (kompresuje do 20 punktów). Profesor B używa pełnego zakresu 0-100 (używa 100 punktów). Załóż, że rozkład ocen każdego profesora jest równomierny w ich używanym zakresie.

Używając formuły entropii H = log₂(n) dla równomiernego rozkładu na n równomiernie prawdopodobnych wynikach, oblicz zawartość informacji (w bitach) jednej oceny z każdego profesora. Ile razy więcej informacji nosi ocena Profesora B niż Profesora A? Co to oznacza dla komisji przyjęć do szkoły doktorskiej, która otrzymuje oceny obu profesorów?