Wertebereich vs Messbereich
Modelliere die Welt als zwei Räume:
Wertebereich V: die Menge der Zustände der Welt in Bezug auf, was du tatsächlich interessiert. Punkte in V stellen verschiedene Stufen der wahren zugrundeliegenden Größe (Schülerleistung, militärischer Fortschritt, wirtschaftliches Wohlergehen) dar.
Messbereich M: die Menge der Werte, die die Metrik annehmen kann. Eine Metrik ist eine Funktion f: V → M — ein Abbild vom Wertebereich in den Messbereich.
Eine gültige Metrik ist eine, bei der f in dem relevanten Bereich nahe an einer Isometrie ist: Gleich große Änderungen in M entsprechen gleich großen Änderungen in V. Nahe Punkte in M entsprechen nahe Punkte in V.
Eine verzerrte Metrik ist eine, bei der f nicht isometrisch ist: Die Metrik komprimiert bestimmte Bereiche von V (was große Veränderungen unsichtbar macht) und erweitert andere (was kleine Veränderungen als große erscheinen lässt). Die IQ-Kalibrierung ist eine geplante Verzerrung: Sie mapping die Rohpunktwertverteilung auf einen Gaussian in M, unabhängig von der tatsächlichen Verteilung von Intelligenz in V.
Goodharts Gesetz in Abbildungstermen: Wenn M ein Ziel wird, steigen die Agenten in M den Gradienten an. Da f eine Verzerrung ist, entspricht Gradientenanstieg in M nicht Gradientenanstieg in V. Der Agent bewegt sich in M, ohne vorwärts (oder rückwärts) in V zu bewegen.
Prüfung der Metrik-Gültigkeit
Ein Unternehmen bewertet die Leistung von Mitarbeitern auf einer 1-5-Sterne-Skala. Die Skala ist so kalibriert, dass 80% der Mitarbeiter 3 oder höher erhalten. Das Leistungsbeurteilungssystem wird für Entscheidungen über Entschädigung (wo Rangreihenfolge wichtig ist) und Verbesserungspläne (wo die absolute Leistung wichtig ist) verwendet.
Gradientenanstieg im falschen Raum
Modellieren Sie das Optimierungsproblem geometrisch. Lassen Sie V = Wertebereich (wahre Schülerleistung, militärischer Fortschritt usw.) und M = metrischer Raum (Prüfungsnoten, Tötungsziele usw.).
Der Gradient der wahren Wertung: ∇_V(Wert) zeigt in die Richtung in V, die die unterliegende Größe, die Sie interessiert, erhöht.
Der Gradient der Metrik: ∇_M(Metrik) zeigt in die Richtung in M, die die Metrik erhöht.
Da f: V → M keine Isometrie ist, ist der Gradient der Metrik im Wertebereich (f(∇_M)) nicht ausgerichtet mit ∇_V. Der Winkel zwischen ihnen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misst die Schwere der Goodhart-Fehlfunktion.
Wenn θ = 0: Der metrische Gradient und der Wertgradient zeigen in die gleiche Richtung. Die Optimierung der Metrik optimiert den Wert. Keine Goodhart-Kontamination.
Wenn θ = 90°: Der metrische Gradient ist orthogonal zu Wert. Die Optimierung der Metrik bewegt sich in M ohne in V voranzugehen.
Wenn θ = 180°: Der metrische Gradient zeigt entgegengesetzt zur Wertung. Die Optimierung der Metrik verschlechtert aktiv den Wert.
Wenn die Metrik ein Ziel wird und Agenten den Gradientenanstieg auf der Metrik durchführen, folgen sie f*(∇_M), nicht ∇_V. Der Abstandswinkel θ wächst im Laufe der Zeit, während die Metrik manipuliert wird - die Abbildung f wird weniger isometrisch, da die Agenten die Bereiche finden, in denen ∇_M und ∇_V am meisten divergieren, weil genau diese Bereiche am effizientesten für die Manipulation geeignet sind.
Messung des Abstands
Überlege dir ein einfaches zweidimensionales Wertesraum V = (Fähigkeit, Einhaltung), wobei Fähigkeit der tatsächliche Verständnis des Schülers ist und Einhaltung die Fähigkeit des Schülers, Test-Verfahren zu befolgen.
Ein Test-Metriks M = 0,3 × Fähigkeit + 0,7 × Einhaltung (eine spezifische lineare Kombination, bei der Einhaltung 70% Gewicht hat).
Mehrzweck-Optimierung als Verteidigung gegen Goodhart
Hamming's Verteidigung: Verwende mehrere Metriken gleichzeitig. Die geometrische Interpretation: statt eine einzelne Zielfunktion f(x) zu maximieren, optimiere über einen Vektor von Zielen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Für einen Vektor-Ziel, ist das Lösungs-Konzept der Pareto-Frontier: der Satz von Lösungen, bei denen keine Zielvorgabe verbessert werden kann, ohne eine andere zu verschlechtern. Die Pareto-Frontier ersetzt das einzelne Optimum.
Warum schützt dies vor Goodhart: Um die Metriken zu manipulieren, muss ein rationale Agent eine Richtung im Wertebereich finden, die alle fᵢ gleichzeitig erhöht (oder zumindest diejenigen, nach denen sie beurteilt werden). Wenn die Metriken genügend unabhängig sind - ihre Gradientenrichtungen sind genügend nicht-parallel - gibt es keine solche Richtung. Das Gaming einer Metrik verschlechtert eine andere.
Der Grad der Verteidigung: Wenn die k Gradienten der Metriken den k-dimensionalen Raum abdecken (linear unabhängig sind), dann optimiert das Optimieren einer geeigneten Teilmenge der Metriken zumindest eine ausgeschlossene Metrik. Eine vollständige Pareto-Verteidigung erfordert, dass keine Gaming-Richtung existiert, die alle Metriken verbessert.
Messungsinvarianz: Eine Metrik M ist invariant bezüglich eines irrelevanten Merkmals α, wenn M(x + δα) = M(x) für Änderungen δ in α. Das IQ-Maß ist nicht invariant bezüglich der Test-Praxis: Das IQ ändert sich, wenn die Schüler den Test ohne echte Gewinne im zugrunde liegenden Konstrukt üben.
Entwerfen eines pareto-geschützten Metrisierungssystems
Stellen Sie sich vor, ein Forschungswissenschaftler wird auf der Grundlage einer zweimetrischen Systematik bewertet: M₁ = Veröffentlichungen pro Jahr, M₂ = Zitierungsrate pro Paper (Zitationen pro Paper).