un

guest
1 / ?
back to lessons

Jak IQ Otrzymuje Swą Normalną Dystrybucję

Hamming otwiera rozdział 29 starannym zbadaniem testów IQ.

Claim: inteligencja obserwuje normalną dystrybucję w populacji. Pomiary: wyświetl wyniki na skali kumulatywnej skali prawdopodobieństwa (papier probabilitarny). Wyniki spadają na prostą linię - wskazując na normalną dystrybucję.

Problem, który Hamming zidentyfikował: to nie jest odkrycie. To konstrukcja. Test IQ jest kalibrowany przez pobranie wyników surowych i zastosowanie monotonicznej transformacji, która zmusza kumulatywną dystrybucję do układu normalnej skali prawdopodobieństwa. Następnie wyniki uzyskane są ogłaszane jako mierzące inteligencję, która jest zdefiniowana jako to, co test kalibrowany mierzy.

Wynik: inteligencja, zdefiniowana jako to, co ten test mierzy, jest normalnie rozłożona. Oczywiście jest to - było to zaprojektowane, aby być takim. Normalna dystrybucja nie jest cechą inteligencji w świecie; to cecha procedury kalibracji.

Generalizacja Hamminga: otrzymujesz to, co mierzasz. Narzędzie, procedura kalibracji i definicja nie są niezależne. Tworzą zamknięty pętlę. To, co narzędzie mierzy, staje się definicją tego, co jest rzeczywiste.

Jego przykład z egzaminem matematycznym: może wyprodukować prawie jakąkolwiek dystrybucję ocen, jaką chce, wybierając dystrybucję trudności pytań. Egzamin szczególnie trudny prowadzi do dwumodalnej dystrybucji (uczniowie znają ją lub nie). Mieszany egzamin prowadzi do krzywej w kształcie litery 'S'. Dystrybucja jest artefaktem projektu testu, a nie odkryciem dotyczącym uczniów.

Prawo Goodharta: Kiedy Metryki Stają Się Celami

Znalezienie Pętli Obrotowej

Analiza Hamminga ujawnia trzykrotną obrotową definicję:

1. Projektowanie narzędzia i procedury kalibracji.

2. Zdefiniowanie konstruktu jako 'to, co to narzędzie mierzy'.

3. Zgłoszenie, że konstrukt ma właściwość dystrybucji zaprojektowaną w procedurze kalibracji.

Znajdź system pomiarowy lub klasyfikacyjny w polu, które znasz, gdzie działa ta sama pętla obrotowa: narzędzie lub procedura jest projektowana, aby wyprodukować określony wynik, a następnie ten wynik jest zgłaszany jako odkrycie dotyczące świata. Zidentyfikuj trzy kroki (narzędzie, definicja, zgłoszone odkrycie) i wyjaśnij, w jaki sposób obrotowość mogłaby wprowadzić w błąd kogoś, kto nie wiedział o historii kalibracji.

Kiedy miara staje się celem

Sformułowanie Hamminga, zanim Goodhart go nazwał: gdy używasz miary jako celu, przestaje być ważną miarą. Akt docelowania kłamie metrykę.

Mechanizm: przed docelowaniem, metka koreluje z wartością podstawową. Po docelowaniu racjonalni aktorzy optymalizują metkę bezpośrednio. Kiedy korzysta się z metki jako celu, korelacja się rozprasza, ponieważ najłatwiejszy sposób na poprawę metki często jest oddzielanie jej od wartości podstawowej.

Przypadki Hamminga:

- Liczba zabitych w Wietnamie: używana jako miara postępu wojskowego. Żołnierze optymalizowali liczbę zabitych licząc nieweryfikowalne obiekty. Metka wzrosła; wojskowy postęp nie.

- Wzrost PKB: używany jako miara dobrobytu gospodarczego. Wzrost PKB można osiągnąć przez produkcję rzeczy o wartości ujemnej (czyszczenie zanieczyszczeń, zwiększenie budżetu wojskowego, budowa więzienia). Metka odseparowany od dobrobytu.

- Ocena testów: używana jako miara uczenia się. Szkoły uczą się do testu. Wyniki wzrosły; zrozumienie podstawowego przedmiotu może nie.

Rozwiązanie Hamminga: (1) zmieniaj miarę regularnie, zanim ludzie całkowicie ją optymalizują; (2) używaj wielu miar jednocześnie - trudniej jest optymalizować je wszystkie naraz; (3) nigdy nie zależysz wyłącznie od jednej miary dla jakiejkolwiek ważnej decyzji.

Zidentyfikuj mechanizm korupcji

Organizacja oprogramowania pomiaru wydajności programistów przez liczenie linii kodu (LOC) napisanych na tydzień. Na początku, LOC koreluje z wydajnością - aktywni programiści piszą więcej kodu niż nieaktywne.

Opisz szczegółowo, w jaki sposób metryka LOC się skaża, gdy używana jest jako cel wydajności. Wymień co najmniej trzy konkretne zachowania, które racjonalni programiści przyjmą, aby zoptymalizować LOC bez poprawy produktywności. Następnie opisz alternatywny zestaw wielometrycznych, który byłby trudniejszy do skażenia i wyjaśnij, dlaczego jest trudniejszy.

Problem Zakresu Dynamicznego

Hamming wskazuje na delikatny problem pomiaru: skali oceniania mają zakres dynamiczny, a większość osób go nie używa.

Przykład: skala od 1 do 10, gdzie 5 to średnio. Większość oceniających używa 4, 5 i 6, nigdy nie wyruszając do 1 lub 9. Ich rzeczywisty zakres oceniania wynosi 3 (od 4 do 6), nawet jeśli skala dostarcza 10.

Skuteczność: rater, który korzysta z pełnego zakresu, ma 3× większy wpływ na średnią ocenę niż ten, który skupia się na środku. Jeśli ocenisz coś, co nie lubisz, jako 2 (pełny zakres), a drugi rater da tym, co lubi, ocenę 6 (zakres zkomprimowany), średnia wyniesie 4 - twoje nieprzyjemne wrażenia będą ważyły się nawet z ich przyjemnością, chociaż obaj mają równe głosy w projektowaniu systemu oceniania.

Związek teorii informacji Hamminga: entropia (średnie zaskoczenie) rozkładu jest maksymalizowana, gdy rozkład jest równomierny. Skala ocen, w której wszystkie stopnie są równomiernie używane, komunikuje maksymalną ilość informacji. Skala, na której większość ocen skupia się na 5, komunikuje bardzo niewiele - oceny te praktycznie nie noszą informacji.

Jego praktyczny porad: korzystaj z całego dynamicznego zakresu jakiejkolwiek skali, której zostaniesz obdarowany. Jeśli otrzymujesz skalę od 1 do 10, nie traktuj jej jako od 1 do 6. Działając tak, zmniejszasz swój wpływ i zmniejszasz ilość informacji zawartych w twoich ocenach.

Informacja i Zasięg Dynamiczny

Dwa profesorzy oceniają na skali od 0 do 100. Professor A używa tylko zakresu 70-90 (skupia się na 20 punktach). Professor B używa pełnego zakresu 0-100 (używa 100 punktów). Podejrzewamy, że rozkład ocen każdego profesora jest równomierny w zakresie, który używa.

Wykorzystując wzór entropii H = log₂(n) dla równomiernego rozkładu nad n równie prawdopodobnymi wyjściami, oblicz ilość informacji (w bitach) przesyconej przez pojedynczą ocenę od każdego profesora. Ile razy więcej informacji przesyła ocena Profesora B niż Profesora A? Co to oznacza dla komitetu przyjmowania na studia, który otrzymuje obie oceny?