English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

gäst
1 / ?

Värdespace vs Mätningsspace

Modellera världen som två rum:

Värdespace V: sätet av världens tillstånd med avseende på vad du faktiskt bryr dig om. Punkter i V representerar olika nivåer av den verkliga underliggande kvantiteten (studentlärande, militär framsteg, ekonomisk välbefinnande).

Mätningsspace M: sätet av värden som metriken kan ta. En mätare är en funktion f: V → M — en kartning från värdespace till mätningsspace.

En giltig mätare är en där f är nära en isometri i det relevanta området: lika förändringar i M korrespondenter lika förändringar i V. Nära punkter i M korrespondenter nära punkter i V.

En fördensklig mätare är en där f är icke-isometrisk: metriken komprimerar vissa regioner av V (gör stora förändringar osynliga) och expanderar andra (gör små förändringar synliga). IQ-kalibreringen är en designad distortion: den kartar den råa poängfördelningen till en normalfördelning i M, oavsett den verkliga fördelningen av intelligens i V.

Goodhart-lagen i kartningsterminer: när M blir ett mål, tillämpar agenter gradientascend i M. Eftersom f är en distortion, korresponderar gradientascend i M inte med gradientascend i V. Agenten rör sig i M utan att röra sig (eller röra sig bakåt) i V.

Metrisk Distortion: Värdespace vs Mätningsspace

Testa Mätarens giltighet

En företag utvärderar personalens prestation på en skala från 1 till 5 stjärnor. Skalan är kalibrerad så att 80% av anställda får 3 eller högre. Prestandaöversiktsystemet används för både lönebeslut (där rangordningen är viktig) och förbättringsplaner (där den absoluta nivån är viktig).

Är denna mätare närmare en isometrisk kartning eller en fördensklig kartning av verklig prestanda? Förklara med hjälp av begreppen kompression och expansion. Därefter: för vilket användningsfall (löneförhöjningar eller förbättringsplaner) betyder distortionen mer, och varför?

Gradientascent i fel rum

Modellera optimeringsproblemet geometriskt. Låt V = värtespace (sann elevlärning, militär framsteg, osv.) och M = metriskt rum (provpoäng, dödssiffror, osv.).

Gradienten av sann värde: ∇_V(värde) pekar i riktningen i V som ökar den underliggande kvantiteten du bryr dig om.

Gradienten av metriken: ∇_M(metriken) pekar i riktningen i M som ökar metriken.

Eftersom f: V → M inte är en isometri, är gradienten av metriken i värtespace (f(∇_M)) inte inriktad mot ∇_V. Vinkeln mellan dem, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mäter allvarlighetsgraden för Goodhart-fel.

Om θ = 0: metrikgradienten och värdegradienten pekar i samma riktning. Att optimera metriken optimerar värde. Inga Goodhart-föroreningar.

Om θ = 90°: metrikgradienten är ortogonell mot värde. Att optimera metriken rör sig i M utan att röra på sig i V alls.

Om θ = 180°: metrikgradienten pekar mot motsatt värde. Att optimera metriken aktiverar negativt värde.

När metriken blir ett mål och agenter använder gradientascent på metriken följer de f*(∇_M), inte ∇_V. Divergensvinkeln θ ökar över tiden när metriken gäspas - mappningen f blir mindre isometrisk eftersom agenterna hittar de regioner där ∇_M och ∇_V divergerar mest, eftersom det är de mest effektiva vägarna för att gäspa.

Mät divergensens storlek

Tänk dig ett enkelt tvådimensionellt värdeutrymme V = (färdighet, samarbete) där färdighet = studentens faktiska förståelse, samarbete = studentens förmåga att följa testprocedurerna.

Testmåttet M = 0,3 × färdighet + 0,7 × samarbete (en specifik linjär kombination, där samarbete har 70% vikt).

I detta 2D-modell är gradienten av metriken väktorn (0,3, 0,7) i (färdighet, samarbete) utrymme. En student optimerar metriken genom att förbättra samarbete (röra sig i (0,1) riktning i värdeutrymme). Beräkna kosinusbilden mellan metrikgradienten och ren-färdighetsriktningen (1,0). Förklara: är metrikgradienten väl inriktad mot 'ökad färdighet' (θ liten) eller dåligt inriktad (θ stor)? Vad detta förutspår om vad som händer när studenter optimerar för detta mått?

Multi-Objective Optimization as Defense Against Goodhart

Hamming's försvar: använd flera mått samtidigt. Den geometriska tolkningen: i stället för att maximera en enda mål funktion f(x), optimera över en vektor av mål F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

För en vektormålsats är lösningstanken Pareto-fronter: sätet av lösningar där inget mål kan förbättras utan att försämras för ett annat. Pareto-fronter ersätter den enskilda optimum.

Varför detta skyddar mot Goodhart: för att manipulera måtten måste en rationell agent hitta en riktning i värtespace som ökar alla fᵢ samtidigt (eller i alla fall de mått de bedöms på). Om måtten är tillräckligt oberoende - deras gradientriktningar är tillräckligt icke-parallella - finns det ingen sådan riktning. Att optimera ett mått försämrar ett annat.

Grad av försvar: om de k gradienterna täcker k-dimensionell utrymme (är linjärt oberoende) så degraderas då minst ett exkluderat mått när man optimerar något lämpligt undersätt av mått. Fullständigt Pareto-försvar kräver att det inte finns någon manipuleringsriktning som förbättrar alla mått.

Måttens invarians: ett mått M är invariant med avseende på irrelevanta attribut α om M(x + δα) = M(x) för förändringar δ i α. IQ-måttet är inte invariant med avseende på testarbete: IQ ändras när elever tränar på testet utan att uppnå verkliga vinster i det underliggande konstruktet.

Designa ett Pareto-försvarat måttsystem

Tänk dig att utvärdera en forskare i två-måttssystemet: M₁ = publikationer per år, M₂ = citeringshastighet per paper (citeringar per paper).

Förklara geometriskt varför dessa två mått tillsammans är svårare att manipulera än varje mått för sig. Specifikt: beskriv en strategi för att maximera M₁ för sig, en strategi för att maximera M₂ för sig, och visa sedan att varje av dessa strategier försämrar det andra måttet. Därefter: finns det några kvarvarande manipuleringsstrategier som ökar båda samtidigt utan att producera genuin forskningsvärde, och om så är fallet, vilken är den?