Werteraum versus Messraum
Modelliere die Welt als zwei Räume:
Werteraum V: die Menge der Zustände der Welt in Bezug auf das, was dir wirklich wichtig ist. Punkte in V stellen verschiedene Stufen der wahren zugrunde liegenden Größe dar (Schülerlernfähigkeit, militärischer Fortschritt, wirtschaftliches Wohlbefinden).
Messraum M: die Menge der Werte, die die Metrik annehmen kann. Eine Metrik ist eine Funktion f: V → M — eine Abbildung vom Werteraum in den Messraum.
Eine gültige Metrik ist eine, bei der f einer Isometrie in der relevanten Region nahe kommt: gleiche Änderungen in M entsprechen gleichen Änderungen in V. Nahegelegene Punkte in M entsprechen nahegelegenen Punkten in V.
Eine verzerrte Metrik ist eine, bei der f nicht-isometrisch ist: Die Metrik komprimiert einige Regionen von V (wodurch große Änderungen unsichtbar werden) & erweitert andere (wodurch kleine Änderungen groß erscheinen). Die IQ-Kalibrierung ist eine beabsichtigte Verzerrung: Sie bildet die Rohwert-Verteilung auf eine Gaußsche Verteilung in M ab, unabhängig von der wahren Verteilung der Intelligenz in V.
Goodharts Gesetz in Abbildungstermen: Wenn M ein Ziel wird, wenden Agenten Gradientenaufstieg in M an. Da f eine Verzerrung ist, entspricht Gradientenaufstieg in M nicht dem Gradientenaufstieg in V. Der Agent bewegt sich in M, ohne sich in V zu bewegen (oder sogar rückwärts zu gehen).
Gültigkeit von Metriken testen
Ein Unternehmen bewertet die Mitarbeiterleistung auf einer 1-5-Sterne-Skala. Die Skala ist so kalibriert, dass 80% der Mitarbeiter 3 oder höher erhalten. Das Leistungsbewertungssystem wird sowohl für Vergütungsentscheidungen (bei denen die Rangfolge zählt) als auch für Verbesserungspläne (bei denen das absolute Niveau zählt) verwendet.
Gradientenaufstieg im falschen Raum
Modelliere das Optimierungsproblem geometrisch. Sei V = Werteraum (wahres Schülerlernfähigkeit, militärischer Fortschritt, etc.) & M = Metrischer Raum (Testergebnisse, Körperzahlen, etc.).
Der Gradient des wahren Wertes: ∇_V(value) zeigt in die Richtung in V, die die zugrunde liegende Größe erhöht, um die es dir geht.
Der Gradient der Metrik: ∇_M(metric) zeigt in die Richtung in M, die die Metrik erhöht.
Da f: V → M keine Isometrie ist, ist der Gradient der Metrik im Werteraum (f(∇_M)) nicht mit ∇_V ausgerichtet. Der Winkel zwischen ihnen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misst die Schwere des Goodhart-Fehlers.
Wenn θ = 0: zeigen der Metrik-Gradient & der Wert-Gradient die gleiche Richtung. Die Optimierung der Metrik optimiert den Wert. Keine Goodhart-Korruption.
Wenn θ = 90°: ist der Metrik-Gradient orthogonal zum Wert. Die Optimierung der Metrik bewegt sich in M, ohne sich in V überhaupt zu bewegen.
Wenn θ = 180°: zeigt der Metrik-Gradient in die entgegengesetzte Richtung zum Wert. Die Optimierung der Metrik degeneriert aktiv den Wert.
Wenn die Metrik ein Ziel wird & Agenten Gradientenaufstieg auf der Metrik anwenden, folgen sie f*(∇_M), nicht ∇_V. Der Divergenzwinkel θ wächst im Laufe der Zeit, da die Metrik manipuliert wird — die Abbildung f wird weniger isometrisch, da Agenten die Regionen finden, in denen ∇_M & ∇_V am meisten divergieren, da dies die effizientesten Wege zur Manipulation sind.
Messung der Divergenz
Betrachte einen einfachen zweidimensionalen Werteraum V = (Fähigkeit, Einhaltung), wobei Fähigkeit = tatsächliches Verständnis des Schülers, Einhaltung = Fähigkeit des Schülers, Testverfahren zu folgen.
Eine Test-Metrik M = 0,3 × Fähigkeit + 0,7 × Einhaltung (eine spezifische lineare Kombination, bei der Einhaltung 70% Gewicht hat).
Multi-Ziel-Optimierung als Verteidigung gegen Goodhart
Hammings Verteidigung: Verwende mehrere Metriken gleichzeitig. Die geometrische Interpretation: Statt eine einzelne Zielfunktion f(x) zu maximieren, optimiere über einen Vektor von Zielen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Für ein Vektor-Ziel ist das Lösungskonzept die Pareto-Grenze: die Menge von Lösungen, bei denen kein Ziel verbessert werden kann, ohne ein anderes zu verschlechtern. Die Pareto-Grenze ersetzt das einzelne Optimum.
Warum dies gegen Goodhart schützt: Um die Metriken zu manipulieren, muss ein rationaler Agent eine Richtung im Werteraum finden, die alle fᵢ gleichzeitig erhöht (oder mindestens die Metriken, auf die sie beurteilt werden). Wenn die Metriken ausreichend unabhängig sind — ihre Gradienten-Richtungen sind ausreichend nicht-parallel — gibt es keine solche Richtung. Die Manipulation einer Metrik verschlechtert eine andere.
Der Grad der Verteidigung: Wenn die k Metrik-Gradienten den k-dimensionalen Raum aufspannen (sind linear unabhängig), dann verschlechtert das Optimieren einer echten Teilmenge von Metriken mindestens eine ausgeschlossene Metrik. Die vollständige Pareto-Verteidigung erfordert, dass keine Manipulationsrichtung existiert, die alle Metriken verbessert.
Messinvarianz: Eine Metrik M ist unveränderlich in Bezug auf ein irrelevantes Attribut α, wenn M(x + δα) = M(x) für Änderungen δ in α gilt. Die IQ-Metrik ist nicht unveränderlich in Bezug auf Testvorbereitung: IQ ändert sich, wenn Schüler den Test trainieren, ohne echte Gewinne in der zugrunde liegenden Konstruktion zu erzielen.
Entwurf eines Pareto-geschützten Metriksystems
Betrachte die Bewertung eines Forschungswissenschaftlers auf einem Zwei-Metrik-System: M₁ = Veröffentlichungen pro Jahr, M₂ = Zitierungsrate pro Papier (Zitate pro Papier).