un — Hamming Kap 29: Du får vad du mäter

un

gäst

1 / ?

Hur IQ får sin normalfördelning

Hamming öppnar kapitel 29 med en noggrann analys av IQ-testning.

Påståndet: intelligens följer en normalfördelning i befolkningen. Mätning: rita upp poäng på en kumulativ sannolikhetsskala (sannolikhetspapper). Poängen faller på en rak linje — vilket indikerar en normalfördelning.

Det problem Hamming identifierar: detta är inte en upptäckt. Det är en konstruktion. IQ-testet är kalibrerat genom att ta de råa poängen och tillämpa en monoton transformation som tvingar den kumulativa fördelningen på sannolikhetsskalan för normalfördelning. Sedan deklareras de resulterande poängen mäta intelligens, som definieras som vad det kalibrerade testet mäter.

Resultat: intelligens, definierad som vad detta test mäter, är normalfördelad. Naturligtvis är det det — det var utformat för att vara det. Normalfördelningen är inte en egenskap hos intelligens i världen; det är en egenskap hos kalibreringsproceduren.

Hammings generalisering: du får vad du mäter. Instrumentet, kalibreringsproceduren och definitionen är inte oberoende. De bildar en sluten slinga. Det som instrumentet mäter blir definitionen av vad som är verkligt.

Hans exempel på analystentamen: han kan producera nästan vilken fördelning av betyg som helst genom att välja svårighetsfördelningen av frågor. En enhetligt svår tentamen producerar en bimodal fördelning (studenterna antingen vet det eller gör det inte). En blandad tentamen producerar en klockkurva. Fördelningen är en artefakt av testets utformning, inte en upptäckt om studenterna.

Goodharts lag: När mätvärden blir mål

Hitta den cirkulära slingan

Hammings analys avslöjar en trestegscirkulär definition:

1. Utforma ett instrument och kalibreringsprocedur.

2. Definiera konstrukten som 'vad detta instrument mäter.'

3. Rapportera att konstrukten har den distributionsgenskap som utformades i kalibreringen.

Hitta ett mät- eller klassificeringssystem inom ett område du känner till där samma cirkulära slinga fungerar: instrumentet eller proceduren är utformad för att producera ett visst resultat, och då rapporteras det resultatet som en upptäckt om världen. Identifiera de tre stegen (instrument, definition, rapporterad upptäckt) och förklara hur cirkulariteten kunde vilseleda någon som inte kände till kalibreringshistoriken.

När ett mätvärde blir ett mål

Hammings formulering, innan Goodhart namngav det: när du använder ett mätvärde som ett mål, slutar det att vara ett giltigt mätvärde. Handlingen att målsätta korrumperar mätningen.

Mekanismen: före målsättning korrelerar mätningen med det underliggande värdet. Efter målsättning optimerar rationella aktörer mätningen direkt. Korrelationen bryts eftersom det enklaste sättet att förbättra mätningen ofta är att koppla bort den från det underliggande värdet.

Hammings fall:

- Dödsräkning i Vietnam: använd som ett mätvärde för militär framsteg. Soldater optimerade dödsräkningen genom att räkna overifierbara objekt. Mätningen steg; militär framsteg gjorde det inte.

- BNP-tillväxt: använd som ett mätvärde för ekonomisk välfärd. BNP-tillväxt kan uppnås genom att producera saker med negativt värde (föroreningsrengöring, militär uppbyggnad, fängelsebygge). Mätningen skilde sig från välfärd.

- Testpoäng: använd som ett mätvärde för lärande. Skolor undervisar för testet. Poängen stiger; förståelsen av det underliggande ämnet kanske inte.

Hammings lösning: (1) ändra mätningen regelbundet, innan människor fullt ut optimerar den; (2) använd flera mätningar samtidigt — det är svårare att optimera alla på en gång; (3) förlita dig aldrig på en enda mätning för något viktigt beslut.

Identifiera förvrängningsmekanismen

En mjukvaruorganisation mäter utvecklarproduktivitet genom att räkna kodningsrader (LOC) skrivna per vecka. Initialt korrelerar LOC med produktivitet — aktiva utvecklare skriver mer kod än inaktiva.

Beskriv specifikt hur LOC-mätningen blir korrumperad när den används som ett prestationsmål. Namnge minst tre konkreta beteenden som rationella utvecklare skulle anta för att optimera LOC utan att förbättra produktiviteten. Beskriv sedan ett alternativ med flera mätningar som skulle vara svårare att korrumpera, och förklara varför det är svårare.

Problemet med dynamisk omfång

Hamming tar upp ett subtilt mätproblem: betygsskalor har dynamisk omfång, och de flesta använder det inte.

Exempel: en 1-10 skala där 5 är genomsnitt. De flesta bedömare använder bara 4, 5 och 6, och vågar sig aldrig till 1 eller 9. Det dynamiska omfånget för deras betyg är effektivt 3 (från 4 till 6), även om skalan tillhandahåller 10.

Konsekvensen: en bedömare som använder det fullständiga omfånget har 3× inflytandet på ett genomsnittligt betyg som en som komprimerar till mitten. Om du bedömer något du ogillar som 2 (fullt omfång) medan den andra bedömaren bedömer något de gillar som 6 (komprimerat omfång), blir genomsnittet 4 — ditt ogillande väger tyngre än deras gillande även om båda har samma röst vid utformningen av betygssystemet.

Hammings informationsteoretiska koppling: entropin (genomsnittlig överraskning) för en fördelning är maximerad när fördelningen är enhetlig. En betygsskala där alla betyg används lika mycket kommunicerar maximal information. En skala där de flesta betyg klustrar kring 5 kommunicerar väldigt lite — betygen bär nästan ingen information.

Hans praktiska råd: använd hela det dynamiska omfånget på vilken skala som helst som du tilldelas. Om du ges en skala från 1 till 10, behandla den inte som 1 till 6. Att göra det minskar ditt inflytande och minskar informationsinnehållet i dina betyg.

Information och dynamisk omfång

Två professorer betygsätter på en 0-100 skala. Professor A använder endast omfånget 70-90 (komprimerar till 20 poäng). Professor B använder det fullständiga omfånget 0-100 (använder 100 poäng). Anta att varje professors betygsfördelning är enhetlig inom deras användade omfång.

Med hjälp av entropiformeln H = log₂(n) för en enhetlig fördelning över n lika sannolika utfall, beräkna informationsinnehållet (i bitar) för ett enskilt betyg från varje professor. Hur många gånger så mycket information bär professor B:s betyg jämfört med professor A:s? Vad betyder detta för en antagningskommitté för gradutstudier som får betyg från båda professorer?