English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

gast
1 / ?
terug naar lessen

Hoe IQ zijn normale verdeling krijgt

Hamming opent Hoofdstuk 29 met een zorgvuldige ontleding van IQ-testen.

De bewering: intelligentie volgt een normale verdeling in de bevolking. Meting: plot scores op een cumulatieve waarschijnlijkheidsschaal (waarschijnlijkheidspapier). De scores vallen op een rechte lijn — wat een normale verdeling aangeeft.

Het probleem dat Hamming identificeert: dit is geen ontdekking. Het is een constructie. De IQ-test wordt gekalibreerd door de onbewerkte scores te nemen en een monotone transformatie toe te passen die de cumulatieve verdeling forceert op de normale waarschijnlijkheidsschaal. Dan worden de resulterende scores verklaard intelligentie te meten, die wordt gedefinieerd als wat de gekalibreerde test meet.

Resultaat: intelligentie, gedefinieerd als wat deze test meet, is normaal verdeeld. Natuurlijk is het dat — het werd zo ontworpen. De normale verdeling is geen eigenschap van intelligentie in de wereld; het is een eigenschap van de kalibratieprocedure.

Hammings generalisatie: je krijgt wat je meet. Het instrument, de kalibratieprocedure en de definitie zijn niet onafhankelijk. Ze vormen een gesloten lus. Wat het instrument meet, wordt de definitie van wat werkelijk is.

Zijn calculusexamenvoorbeeld: hij kan bijna elke gewenste verdeling van cijfers produceren door de moeilijkheidsverdeling van vragen te kiezen. Een uniform lastig examen produceert een bimodale verdeling (studenten kennen het of niet). Een gemengd examen produceert een belcurve. De verdeling is een artefact van het testontwerp, geen ontdekking over de studenten.

Goodhart's wet: Wanneer metrieken doelstellingen worden

De circulaire lus vinden

Hammings analyse onthult een drieledige circulaire definitie:

1. Ontwerp een instrument en kalibratieprocedure.

2. Definieer de constructie als 'wat dit instrument meet.'

3. Rapporteer dat de constructie de distributionele eigenschap heeft die in de kalibratie is ingebouwd.

Vind een meet- of classificatiesysteem op een gebied dat je kent waar dezelfde circulaire lus werkt: het instrument of procedure is ontworpen om een bepaalde uitkomst te produceren, en dan wordt die uitkomst gerapporteerd als een ontdekking over de wereld. Identificeer de drie stappen (instrument, definitie, gerapporteerde ontdekking) en leg uit hoe de circulariteit iemand die de kalibratiegeschiedenis niet kent, zou kunnen misleiden.

Wanneer een maat een doel wordt

Hammings formulering, vóórdat Goodhart het noemde: wanneer je een maat als doel gebruikt, houdt het op een geldige maat te zijn. Het feit van targeting corrumpeert de metriek.

Het mechanisme: vóórdat targeting, correleert de metriek met de onderliggende waarde. Na targeting optimaliseren rationele actoren de metriek rechtstreeks. De correlatie breekt omdat de gemakkelijkste manier om de metriek te verbeteren, deze vaak van de onderliggende waarde los te koppelen is.

Hammings gevallen:

- Lijkentelling in Vietnam: gebruikt als maat voor militaire vooruitgang. Soldaten optimaliseerden lijkentelling door onverifieerbare objecten te tellen. De metriek steeg; militaire vooruitgang niet.

- BNP-groei: gebruikt als maat voor economisch welzijn. BNP-groei kan worden bereikt door dingen met negatieve waarde te produceren (milieuopschoning, militaire opbouw, gevangenisconstrictie). De metriek vervreemde van welzijn.

- Testscores: gebruikt als maat voor leren. Scholen underwijzen voor het examen. Scores stijgen; begrip van het onderliggende onderwerp niet.

Hammings oplossing: (1) verander de metriek regelmatig, vóórdat mensen haar volledig optimaliseren; (2) gebruik meerdere metrieken tegelijk — het is moeilijker om ze allemaal tegelijk te optimaliseren; (3) vertrouw nooit op een enkele metriek voor een belangrijke beslissing.

Identificeer het corruptiemechanisme

Een softwareorganisatie meet de productiviteit van ontwikkelaars door het aantal regels code (LOC) per week geteld. In eerste instantie correleert LOC met productiviteit — actieve ontwikkelaars schrijven meer code dan inactieve.

Beschrijf specifiek hoe de LOC-metriek wordt gecorrumpeerd wanneer zij als prestatiedoel wordt gebruikt. Noem minstens drie concrete gedragingen die rationele ontwikkelaars zouden aannemen om LOC te optimaliseren zonder productiviteit te verbeteren. Beschrijf vervolgens een multi-metriek alternatief dat moeilijker zou zijn om te corrupteren, en leg uit waarom het moeilijker is.

Het dynamische bereikprobleem

Hamming wijst op een subtiel meettprobleem: beoordelingsschalen hebben dynamisch bereik, en de meeste mensen gebruiken het niet.

Voorbeeld: een schaal van 1 tot 10 waar 5 gemiddeld is. De meeste beoordelaars gebruiken 4, 5 en 6, durven nooit naar 1 of 9. Het dynamische bereik van hun ratings is effectief 3 (van 4 tot 6), hoewel de schaal 10 biedt.

Het gevolg: een beoordelaar die het volledige bereik gebruikt, heeft 3× zoveel invloed op een gemiddelde rating als degene die zich tot het midden comprimeert. Als je iets wat je niet aardig vindt als 2 beoordeelt (vol bereik) terwijl de ander wat zij aardig vinden als 6 geven (gecomprimeerd bereik), is het gemiddelde 4 — jouw ongenoegen weegt zwaarder dan hun preferentie ondanks dat beide gelijke stem hebben in het ontwerp van het ratingsysteem.

Hammings informatietheorieverbinding: de entropie (gemiddelde verrassing) van een verdeling wordt gemaximaliseerd wanneer de verdeling uniform is. Een beoordelingsschaal waar alle graden gelijk gebruikt worden, communiceert de maximale informatie. Een schaal waar de meeste ratings bij 5 clusteren, communiceert erg weinig — de ratings dragen bijna geen informatie.

Zijn praktische raad: gebruik het volledige dynamische bereik van elke schaal die je krijgt opgedragen. Als je een schaal van 1 tot 10 krijgt, behandel het niet als 1 tot 6. Dit doen reduceert je invloed en vermindert de informatiecontent van je ratings.

Informatie en dynamisch bereik

Twee professoren beoordelen op een schaal van 0-100. Professor A gebruikt alleen het bereik 70-90 (comprimeert tot 20 punten). Professor B gebruikt het volledige bereik 0-100 (gebruikt 100 punten). Stel dat de verdeling van elke professor uniform is binnen het gebruikte bereik.

Bereken met behulp van de entropieformule H = log₂(n) voor een uniforme verdeling over n gelijk waarschijnlijke resultaten, de informatiecontent (in bits) van een enkel cijfer van elke professor. Hoeveel keer meer informatie draagt het cijfer van Professor B dan van Professor A? Wat betekent dit voor een commissie voor toelating tot postdoctorale studies die grades van beide professoren ontvangt?