English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

gast
1 / ?
terug naar lessen

Waarde-ruimte vs Meetruimte

Model de wereld als twee ruimtes:

Waarde-ruimte V: de set van toestanden van de wereld ten opzichte van wat je daadwerkelijk om geeft. Punten in V vertegenwoordigen verschillende niveaus van de werkelijke onderliggende hoeveelheid (studentenlering, militaire vooruitgang, economisch welzijn).

Meetruimte M: de set van waarden die de metric kan aanpakken. Een metric is een functie f: V → M — een afbeelding van waarde-ruimte naar meetruimte.

Een geldige metric is er een waarbij f dicht bij een isometrie in de relevante regio ligt: gelijke veranderingen in M corresponderen met gelijke veranderingen in V. Nabijgelegen punten in M corresponderen met nabijgelegen punten in V.

Een vervormde metric is er een waarbij f niet-isometrisch is: de metric comprimeert bepaalde gebieden van V (waardoor grote veranderingen onzichtbaar worden) en expandeert andere (waardoor kleine veranderingen groot lijken). Het IQ-afstemmingsniveau is een ontworpen vervorming: het mapt de oorspronkelijke scoreverdeling naar een Gaussian in M, ongeacht de werkelijke verdeling van intelligentie in V.

Goodhart's wet in afbeeldingstermen: wanneer M een doelwit wordt, stellen agenten de gradient-ascent in M in. Omdat f een vervorming is, correspondeert gradient-ascent in M niet met gradient-ascent in V. De agent beweegt zich in M zonder vooruit te komen (of zelfs achteruit) in V.

Metric Vervorming: Waarde-ruimte vs Meetruimte

Testen van de Geldigheid van de Metric

Een bedrijf evalueert medewerkerprestaties op een schaal van 1 tot 5 sterren. De schaal is ingesteld zodat 80% van de medewerkers 3 of hoger ontvangt. Het prestatiebeoordelingsysteem wordt gebruikt voor zowel beloningbeslissingen (waar rangorde van belang is) als verbeteringsplannen (waar de absolute niveau van belang is).

Is deze metric dichter bij een isometrische afbeelding of een vervormde afbeelding van de werkelijke prestaties? Verklaar dit met de concepten van comprimeren en uitbreiden. Vervolgens: voor welk gebruikgeval (beloningssystemen of verbeteringsplannen) doet de vervorming meer aan, en waarom?

Gradient Ascent in the Wrong Space

Modelleren van het optimalisatieprobleem wiskundig. Laat V = waarde ruimte (echte leerprestaties, militaire vooruitgang, etc.) en M = meetruimte (testscores, dodentallen, etc.).

De gradient van de waarde: ∇_V(value) wijst in de richting in V die de onderliggende hoeveelheid die je ziet zorgt voor.

De gradient van de metric: ∇_M(metric) wijst in de richting in M die de metric vergroot.

Omdat f: V → M niet een isometrie is, is de gradient van de metric in waarde ruimte (f(∇_M)) niet gealigneerd met ∇_V. Het hoekje tussen hen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), meet de ernst van de Goodhart-fout.

Als θ = 0: de metric gradient en waarde gradient wijzen dezelfde richting. Optimaliseren van de metric optimaliseert waarde. Geen Goodhart-corruptie.

Als θ = 90°: de metric gradient is orthogonaal aan waarde. Optimaliseren van de metric verplaatst zich in M zonder te verplaatsen in V.

Als θ = 180°: de metric gradient wijst tegenover waarde. Optimaliseren van de metric vermindert waarde.

Wanneer de metric een doelwit wordt en agents de gradient-ascent uitvoeren op de metric, volgen ze f*(∇_M), niet ∇_V. De divergentiehoek θ groeit met de tijd terwijl de metric wordt gespeeld - de afbeelding f wordt minder isometrisch omdat agents de gebieden vinden waar ∇_M en ∇_V het meest divergeren, omdat dat de meest efficiënte paden zijn voor het manipuleren.

De Divergentie Meten

Overweeg een eenvoudig tweedimensionaal waarde-ruimte V = (vaardigheid, compliance) waarbij vaardigheid = de werkelijke begrip van de student, compliance = de vermogen van de student om test-nemende procedures te volgen.

Een test-metriek M = 0.3 × vaardigheid + 0.7 × compliance (een specifieke lineaire combinatie, waarbij compliance 70% gewicht heeft).

In dit 2D-model is de graad van de metriek de vector (0.3, 0.7) in (vaardigheid, compliance) ruimte. Een student optimaliseert de metriek door alleen de compliance te verbeteren (door de (0, 1) richting in waarde ruimte te bewegen). Bereken de cosinus van de hoek tussen de metrieksgraad en de puur-vaardigheid richting (1, 0). Verklaar: is de metrieksgraad goed uitgelijnd met 'toegenomen vaardigheid' (kleine θ) of slecht uitgelijnd (grote θ)? Wat voorspelt dit over wat er gebeurt als studenten optimaliseren voor deze metriek?

Multi-Objectieve Optimalisatie als Verdediging Tegen Goodhart

Hamming's verdediging: gebruik meerdere metrieken gelijktijdig. De meetkundige interpretatie: in plaats van een enkele doelstelling f(x) te maximaliseren, optimaliseer je over een vector van doelstellingen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Voor een vectordoelstelling is het oplossingsconcept de Pareto-frontier: de set van oplossingen waarbij geen doelstelling kan worden verbeterd zonder een andere te verzwakken. De Pareto-frontier vervangt het enkele optimum.

Waarom dit beschermt tegen Goodhart: om de metriek te manipuleren, moet een rationeel agent een richting in de waarde-ruimte vinden die alle fᵢ gelijktijdig verhoogt (of ten minste de metrieken waarop ze worden beoordeeld). Als de metrieken voldoende onafhankelijk zijn - hun gradientrichtingen zijn voldoende niet-parallel - bestaat er geen dergelijke richting. Manipuleren van één metriek degraderen een andere.

Het niveau van bescherming: als de k gradienten de k-dimensionale ruimte beslaan (lineair onafhankelijk zijn), dan optimaliseert het optimaliseren van een juiste subset van metrieken minstens één uitgesloten metriek. Volledige Pareto-bescherming vereist dat er geen manipulatie-richting bestaat die alle metrieken verbetert.

Meetinvariance: een metriek M is invariant ten opzichte van onbelangrijke kenmerk α als M(x + δα) = M(x) voor veranderingen δ in α. Het IQ-metriek is niet invariant ten opzichte van testervaring: IQ verandert wanneer studenten de test oefenen zonder daadwerkelijke winst in de onderliggende construct.

Ontwerp een Pareto-Verdedigde Metrische Systeem

Overwogt een onderzoekers wetenschapper te beoordelen op een tweemetrisc systeem: M₁ = publicaties per jaar, M₂ = citatieratio per artikel (citaties per artikel).

Leg geometrisch uit waarom deze twee metrieken samen moeilijker te manipuleren zijn dan elke metriek apart. Specifiek: beschrijf een strategie voor het maximaliseren van M₁ alleen, een strategie voor het maximaliseren van M₂ alleen, en toon vervolgens dat elke van die strategieën de andere metriek degradeert. Daarna: bestaat er een resterende manipulatie-strategie die beide gelijktijdig verhoogt zonder daadwerkelijke onderzoeks-waarde te produceren, en als dat zo is, wat is het?