Hoe IQ zijn normale verdeling krijgt
Hamming opent Hoofdstuk 29 met een zorgvuldige ontleding van IQ-testen.
De bewering: intelligentie volgt een normale verdeling in de bevolking. Meting: plot scores op een cumulatieve waarschijnlijkheidsschaal (waarschijnlijkheidspapier). De scores vallen op een rechte lijn — wat een normale verdeling aangeeft.
Het probleem dat Hamming identificeert: dit is geen ontdekking. Het is een constructie. De IQ-test wordt gekalibreerd door de onbewerkte scores te nemen en een monotone transformatie toe te passen die de cumulatieve verdeling forceert op de normale waarschijnlijkheidsschaal. Dan worden de resulterende scores verklaard intelligentie te meten, die wordt gedefinieerd als wat de gekalibreerde test meet.
Resultaat: intelligentie, gedefinieerd als wat deze test meet, is normaal verdeeld. Natuurlijk is het dat — het werd zo ontworpen. De normale verdeling is geen eigenschap van intelligentie in de wereld; het is een eigenschap van de kalibratieprocedure.
Hammings generalisatie: je krijgt wat je meet. Het instrument, de kalibratieprocedure en de definitie zijn niet onafhankelijk. Ze vormen een gesloten lus. Wat het instrument meet, wordt de definitie van wat werkelijk is.
Zijn calculusexamenvoorbeeld: hij kan bijna elke gewenste verdeling van cijfers produceren door de moeilijkheidsverdeling van vragen te kiezen. Een uniform lastig examen produceert een bimodale verdeling (studenten kennen het of niet). Een gemengd examen produceert een belcurve. De verdeling is een artefact van het testontwerp, geen ontdekking over de studenten.
De circulaire lus vinden
Hammings analyse onthult een drieledige circulaire definitie:
1. Ontwerp een instrument en kalibratieprocedure.
2. Definieer de constructie als 'wat dit instrument meet.'
3. Rapporteer dat de constructie de distributionele eigenschap heeft die in de kalibratie is ingebouwd.
Wanneer een maat een doel wordt
Hammings formulering, vóórdat Goodhart het noemde: wanneer je een maat als doel gebruikt, houdt het op een geldige maat te zijn. Het feit van targeting corrumpeert de metriek.
Het mechanisme: vóórdat targeting, correleert de metriek met de onderliggende waarde. Na targeting optimaliseren rationele actoren de metriek rechtstreeks. De correlatie breekt omdat de gemakkelijkste manier om de metriek te verbeteren, deze vaak van de onderliggende waarde los te koppelen is.
Hammings gevallen:
- Lijkentelling in Vietnam: gebruikt als maat voor militaire vooruitgang. Soldaten optimaliseerden lijkentelling door onverifieerbare objecten te tellen. De metriek steeg; militaire vooruitgang niet.
- BNP-groei: gebruikt als maat voor economisch welzijn. BNP-groei kan worden bereikt door dingen met negatieve waarde te produceren (milieuopschoning, militaire opbouw, gevangenisconstrictie). De metriek vervreemde van welzijn.
- Testscores: gebruikt als maat voor leren. Scholen underwijzen voor het examen. Scores stijgen; begrip van het onderliggende onderwerp niet.
Hammings oplossing: (1) verander de metriek regelmatig, vóórdat mensen haar volledig optimaliseren; (2) gebruik meerdere metrieken tegelijk — het is moeilijker om ze allemaal tegelijk te optimaliseren; (3) vertrouw nooit op een enkele metriek voor een belangrijke beslissing.
Identificeer het corruptiemechanisme
Een softwareorganisatie meet de productiviteit van ontwikkelaars door het aantal regels code (LOC) per week geteld. In eerste instantie correleert LOC met productiviteit — actieve ontwikkelaars schrijven meer code dan inactieve.
Het dynamische bereikprobleem
Hamming wijst op een subtiel meettprobleem: beoordelingsschalen hebben dynamisch bereik, en de meeste mensen gebruiken het niet.
Voorbeeld: een schaal van 1 tot 10 waar 5 gemiddeld is. De meeste beoordelaars gebruiken 4, 5 en 6, durven nooit naar 1 of 9. Het dynamische bereik van hun ratings is effectief 3 (van 4 tot 6), hoewel de schaal 10 biedt.
Het gevolg: een beoordelaar die het volledige bereik gebruikt, heeft 3× zoveel invloed op een gemiddelde rating als degene die zich tot het midden comprimeert. Als je iets wat je niet aardig vindt als 2 beoordeelt (vol bereik) terwijl de ander wat zij aardig vinden als 6 geven (gecomprimeerd bereik), is het gemiddelde 4 — jouw ongenoegen weegt zwaarder dan hun preferentie ondanks dat beide gelijke stem hebben in het ontwerp van het ratingsysteem.
Hammings informatietheorieverbinding: de entropie (gemiddelde verrassing) van een verdeling wordt gemaximaliseerd wanneer de verdeling uniform is. Een beoordelingsschaal waar alle graden gelijk gebruikt worden, communiceert de maximale informatie. Een schaal waar de meeste ratings bij 5 clusteren, communiceert erg weinig — de ratings dragen bijna geen informatie.
Zijn praktische raad: gebruik het volledige dynamische bereik van elke schaal die je krijgt opgedragen. Als je een schaal van 1 tot 10 krijgt, behandel het niet als 1 tot 6. Dit doen reduceert je invloed en vermindert de informatiecontent van je ratings.
Informatie en dynamisch bereik
Twee professoren beoordelen op een schaal van 0-100. Professor A gebruikt alleen het bereik 70-90 (comprimeert tot 20 punten). Professor B gebruikt het volledige bereik 0-100 (gebruikt 100 punten). Stel dat de verdeling van elke professor uniform is binnen het gebruikte bereik.