Waarde-ruimte vs Meetruimte
Model de wereld als twee ruimtes:
Waarde-ruimte V: de set van toestanden van de wereld ten opzichte van wat je daadwerkelijk om geeft. Punten in V vertegenwoordigen verschillende niveaus van de werkelijke onderliggende hoeveelheid (studentenlering, militaire vooruitgang, economisch welzijn).
Meetruimte M: de set van waarden die de metric kan aanpakken. Een metric is een functie f: V → M — een afbeelding van waarde-ruimte naar meetruimte.
Een geldige metric is er een waarbij f dicht bij een isometrie in de relevante regio ligt: gelijke veranderingen in M corresponderen met gelijke veranderingen in V. Nabijgelegen punten in M corresponderen met nabijgelegen punten in V.
Een vervormde metric is er een waarbij f niet-isometrisch is: de metric comprimeert bepaalde gebieden van V (waardoor grote veranderingen onzichtbaar worden) en expandeert andere (waardoor kleine veranderingen groot lijken). Het IQ-afstemmingsniveau is een ontworpen vervorming: het mapt de oorspronkelijke scoreverdeling naar een Gaussian in M, ongeacht de werkelijke verdeling van intelligentie in V.
Goodhart's wet in afbeeldingstermen: wanneer M een doelwit wordt, stellen agenten de gradient-ascent in M in. Omdat f een vervorming is, correspondeert gradient-ascent in M niet met gradient-ascent in V. De agent beweegt zich in M zonder vooruit te komen (of zelfs achteruit) in V.
Testen van de Geldigheid van de Metric
Een bedrijf evalueert medewerkerprestaties op een schaal van 1 tot 5 sterren. De schaal is ingesteld zodat 80% van de medewerkers 3 of hoger ontvangt. Het prestatiebeoordelingsysteem wordt gebruikt voor zowel beloningbeslissingen (waar rangorde van belang is) als verbeteringsplannen (waar de absolute niveau van belang is).
Gradient Ascent in the Wrong Space
Modelleren van het optimalisatieprobleem wiskundig. Laat V = waarde ruimte (echte leerprestaties, militaire vooruitgang, etc.) en M = meetruimte (testscores, dodentallen, etc.).
De gradient van de waarde: ∇_V(value) wijst in de richting in V die de onderliggende hoeveelheid die je ziet zorgt voor.
De gradient van de metric: ∇_M(metric) wijst in de richting in M die de metric vergroot.
Omdat f: V → M niet een isometrie is, is de gradient van de metric in waarde ruimte (f(∇_M)) niet gealigneerd met ∇_V. Het hoekje tussen hen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), meet de ernst van de Goodhart-fout.
Als θ = 0: de metric gradient en waarde gradient wijzen dezelfde richting. Optimaliseren van de metric optimaliseert waarde. Geen Goodhart-corruptie.
Als θ = 90°: de metric gradient is orthogonaal aan waarde. Optimaliseren van de metric verplaatst zich in M zonder te verplaatsen in V.
Als θ = 180°: de metric gradient wijst tegenover waarde. Optimaliseren van de metric vermindert waarde.
Wanneer de metric een doelwit wordt en agents de gradient-ascent uitvoeren op de metric, volgen ze f*(∇_M), niet ∇_V. De divergentiehoek θ groeit met de tijd terwijl de metric wordt gespeeld - de afbeelding f wordt minder isometrisch omdat agents de gebieden vinden waar ∇_M en ∇_V het meest divergeren, omdat dat de meest efficiënte paden zijn voor het manipuleren.
De Divergentie Meten
Overweeg een eenvoudig tweedimensionaal waarde-ruimte V = (vaardigheid, compliance) waarbij vaardigheid = de werkelijke begrip van de student, compliance = de vermogen van de student om test-nemende procedures te volgen.
Een test-metriek M = 0.3 × vaardigheid + 0.7 × compliance (een specifieke lineaire combinatie, waarbij compliance 70% gewicht heeft).
Multi-Objectieve Optimalisatie als Verdediging Tegen Goodhart
Hamming's verdediging: gebruik meerdere metrieken gelijktijdig. De meetkundige interpretatie: in plaats van een enkele doelstelling f(x) te maximaliseren, optimaliseer je over een vector van doelstellingen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Voor een vectordoelstelling is het oplossingsconcept de Pareto-frontier: de set van oplossingen waarbij geen doelstelling kan worden verbeterd zonder een andere te verzwakken. De Pareto-frontier vervangt het enkele optimum.
Waarom dit beschermt tegen Goodhart: om de metriek te manipuleren, moet een rationeel agent een richting in de waarde-ruimte vinden die alle fᵢ gelijktijdig verhoogt (of ten minste de metrieken waarop ze worden beoordeeld). Als de metrieken voldoende onafhankelijk zijn - hun gradientrichtingen zijn voldoende niet-parallel - bestaat er geen dergelijke richting. Manipuleren van één metriek degraderen een andere.
Het niveau van bescherming: als de k gradienten de k-dimensionale ruimte beslaan (lineair onafhankelijk zijn), dan optimaliseert het optimaliseren van een juiste subset van metrieken minstens één uitgesloten metriek. Volledige Pareto-bescherming vereist dat er geen manipulatie-richting bestaat die alle metrieken verbetert.
Meetinvariance: een metriek M is invariant ten opzichte van onbelangrijke kenmerk α als M(x + δα) = M(x) voor veranderingen δ in α. Het IQ-metriek is niet invariant ten opzichte van testervaring: IQ verandert wanneer studenten de test oefenen zonder daadwerkelijke winst in de onderliggende construct.
Ontwerp een Pareto-Verdedigde Metrische Systeem
Overwogt een onderzoekers wetenschapper te beoordelen op een tweemetrisc systeem: M₁ = publicaties per jaar, M₂ = citatieratio per artikel (citaties per artikel).