Värdespace vs Mätningsspace
Modellera världen som två rum:
Värdespace V: sätet av världens tillstånd med avseende på vad du faktiskt bryr dig om. Punkter i V representerar olika nivåer av den verkliga underliggande kvantiteten (studentlärande, militär framsteg, ekonomisk välbefinnande).
Mätningsspace M: sätet av värden som metriken kan ta. En mätare är en funktion f: V → M — en kartning från värdespace till mätningsspace.
En giltig mätare är en där f är nära en isometri i det relevanta området: lika förändringar i M korrespondenter lika förändringar i V. Nära punkter i M korrespondenter nära punkter i V.
En fördensklig mätare är en där f är icke-isometrisk: metriken komprimerar vissa regioner av V (gör stora förändringar osynliga) och expanderar andra (gör små förändringar synliga). IQ-kalibreringen är en designad distortion: den kartar den råa poängfördelningen till en normalfördelning i M, oavsett den verkliga fördelningen av intelligens i V.
Goodhart-lagen i kartningsterminer: när M blir ett mål, tillämpar agenter gradientascend i M. Eftersom f är en distortion, korresponderar gradientascend i M inte med gradientascend i V. Agenten rör sig i M utan att röra sig (eller röra sig bakåt) i V.
Testa Mätarens giltighet
En företag utvärderar personalens prestation på en skala från 1 till 5 stjärnor. Skalan är kalibrerad så att 80% av anställda får 3 eller högre. Prestandaöversiktsystemet används för både lönebeslut (där rangordningen är viktig) och förbättringsplaner (där den absoluta nivån är viktig).
Gradientascent i fel rum
Modellera optimeringsproblemet geometriskt. Låt V = värtespace (sann elevlärning, militär framsteg, osv.) och M = metriskt rum (provpoäng, dödssiffror, osv.).
Gradienten av sann värde: ∇_V(värde) pekar i riktningen i V som ökar den underliggande kvantiteten du bryr dig om.
Gradienten av metriken: ∇_M(metriken) pekar i riktningen i M som ökar metriken.
Eftersom f: V → M inte är en isometri, är gradienten av metriken i värtespace (f(∇_M)) inte inriktad mot ∇_V. Vinkeln mellan dem, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mäter allvarlighetsgraden för Goodhart-fel.
Om θ = 0: metrikgradienten och värdegradienten pekar i samma riktning. Att optimera metriken optimerar värde. Inga Goodhart-föroreningar.
Om θ = 90°: metrikgradienten är ortogonell mot värde. Att optimera metriken rör sig i M utan att röra på sig i V alls.
Om θ = 180°: metrikgradienten pekar mot motsatt värde. Att optimera metriken aktiverar negativt värde.
När metriken blir ett mål och agenter använder gradientascent på metriken följer de f*(∇_M), inte ∇_V. Divergensvinkeln θ ökar över tiden när metriken gäspas - mappningen f blir mindre isometrisk eftersom agenterna hittar de regioner där ∇_M och ∇_V divergerar mest, eftersom det är de mest effektiva vägarna för att gäspa.
Mät divergensens storlek
Tänk dig ett enkelt tvådimensionellt värdeutrymme V = (färdighet, samarbete) där färdighet = studentens faktiska förståelse, samarbete = studentens förmåga att följa testprocedurerna.
Testmåttet M = 0,3 × färdighet + 0,7 × samarbete (en specifik linjär kombination, där samarbete har 70% vikt).
Multi-Objective Optimization as Defense Against Goodhart
Hamming's försvar: använd flera mått samtidigt. Den geometriska tolkningen: i stället för att maximera en enda mål funktion f(x), optimera över en vektor av mål F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
För en vektormålsats är lösningstanken Pareto-fronter: sätet av lösningar där inget mål kan förbättras utan att försämras för ett annat. Pareto-fronter ersätter den enskilda optimum.
Varför detta skyddar mot Goodhart: för att manipulera måtten måste en rationell agent hitta en riktning i värtespace som ökar alla fᵢ samtidigt (eller i alla fall de mått de bedöms på). Om måtten är tillräckligt oberoende - deras gradientriktningar är tillräckligt icke-parallella - finns det ingen sådan riktning. Att optimera ett mått försämrar ett annat.
Grad av försvar: om de k gradienterna täcker k-dimensionell utrymme (är linjärt oberoende) så degraderas då minst ett exkluderat mått när man optimerar något lämpligt undersätt av mått. Fullständigt Pareto-försvar kräver att det inte finns någon manipuleringsriktning som förbättrar alla mått.
Måttens invarians: ett mått M är invariant med avseende på irrelevanta attribut α om M(x + δα) = M(x) för förändringar δ i α. IQ-måttet är inte invariant med avseende på testarbete: IQ ändras när elever tränar på testet utan att uppnå verkliga vinster i det underliggande konstruktet.
Designa ett Pareto-försvarat måttsystem
Tänk dig att utvärdera en forskare i två-måttssystemet: M₁ = publikationer per år, M₂ = citeringshastighet per paper (citeringar per paper).