English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

Gast
1 / ?

Werteraum versus Messraum

Modelliere die Welt als zwei Räume:

Werteraum V: die Menge der Zustände der Welt in Bezug auf das, was dir wirklich wichtig ist. Punkte in V stellen verschiedene Stufen der wahren zugrunde liegenden Größe dar (Schülerlernfähigkeit, militärischer Fortschritt, wirtschaftliches Wohlbefinden).

Messraum M: die Menge der Werte, die die Metrik annehmen kann. Eine Metrik ist eine Funktion f: V → M — eine Abbildung vom Werteraum in den Messraum.

Eine gültige Metrik ist eine, bei der f einer Isometrie in der relevanten Region nahe kommt: gleiche Änderungen in M entsprechen gleichen Änderungen in V. Nahegelegene Punkte in M entsprechen nahegelegenen Punkten in V.

Eine verzerrte Metrik ist eine, bei der f nicht-isometrisch ist: Die Metrik komprimiert einige Regionen von V (wodurch große Änderungen unsichtbar werden) & erweitert andere (wodurch kleine Änderungen groß erscheinen). Die IQ-Kalibrierung ist eine beabsichtigte Verzerrung: Sie bildet die Rohwert-Verteilung auf eine Gaußsche Verteilung in M ab, unabhängig von der wahren Verteilung der Intelligenz in V.

Goodharts Gesetz in Abbildungstermen: Wenn M ein Ziel wird, wenden Agenten Gradientenaufstieg in M an. Da f eine Verzerrung ist, entspricht Gradientenaufstieg in M nicht dem Gradientenaufstieg in V. Der Agent bewegt sich in M, ohne sich in V zu bewegen (oder sogar rückwärts zu gehen).

Metrik-Verzerrung: Werteraum versus Messraum

Gültigkeit von Metriken testen

Ein Unternehmen bewertet die Mitarbeiterleistung auf einer 1-5-Sterne-Skala. Die Skala ist so kalibriert, dass 80% der Mitarbeiter 3 oder höher erhalten. Das Leistungsbewertungssystem wird sowohl für Vergütungsentscheidungen (bei denen die Rangfolge zählt) als auch für Verbesserungspläne (bei denen das absolute Niveau zählt) verwendet.

Ist diese Metrik einer isometrischen Abbildung oder einer verzerrten Abbildung der wahren Leistung näher? Erkläre dies unter Verwendung der Konzepte von Kompression & Expansion. Dann: für welchen Anwendungsfall (Vergütung oder Verbesserungspläne) ist die Verzerrung wichtiger, & warum?

Gradientenaufstieg im falschen Raum

Modelliere das Optimierungsproblem geometrisch. Sei V = Werteraum (wahres Schülerlernfähigkeit, militärischer Fortschritt, etc.) & M = Metrischer Raum (Testergebnisse, Körperzahlen, etc.).

Der Gradient des wahren Wertes: ∇_V(value) zeigt in die Richtung in V, die die zugrunde liegende Größe erhöht, um die es dir geht.

Der Gradient der Metrik: ∇_M(metric) zeigt in die Richtung in M, die die Metrik erhöht.

Da f: V → M keine Isometrie ist, ist der Gradient der Metrik im Werteraum (f(∇_M)) nicht mit ∇_V ausgerichtet. Der Winkel zwischen ihnen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misst die Schwere des Goodhart-Fehlers.

Wenn θ = 0: zeigen der Metrik-Gradient & der Wert-Gradient die gleiche Richtung. Die Optimierung der Metrik optimiert den Wert. Keine Goodhart-Korruption.

Wenn θ = 90°: ist der Metrik-Gradient orthogonal zum Wert. Die Optimierung der Metrik bewegt sich in M, ohne sich in V überhaupt zu bewegen.

Wenn θ = 180°: zeigt der Metrik-Gradient in die entgegengesetzte Richtung zum Wert. Die Optimierung der Metrik degeneriert aktiv den Wert.

Wenn die Metrik ein Ziel wird & Agenten Gradientenaufstieg auf der Metrik anwenden, folgen sie f*(∇_M), nicht ∇_V. Der Divergenzwinkel θ wächst im Laufe der Zeit, da die Metrik manipuliert wird — die Abbildung f wird weniger isometrisch, da Agenten die Regionen finden, in denen ∇_M & ∇_V am meisten divergieren, da dies die effizientesten Wege zur Manipulation sind.

Messung der Divergenz

Betrachte einen einfachen zweidimensionalen Werteraum V = (Fähigkeit, Einhaltung), wobei Fähigkeit = tatsächliches Verständnis des Schülers, Einhaltung = Fähigkeit des Schülers, Testverfahren zu folgen.

Eine Test-Metrik M = 0,3 × Fähigkeit + 0,7 × Einhaltung (eine spezifische lineare Kombination, bei der Einhaltung 70% Gewicht hat).

In diesem 2D-Modell ist der Gradient der Metrik der Vektor (0,3, 0,7) im (Fähigkeit, Einhaltung)-Raum. Ein Schüler optimiert die Metrik, indem er nur die Einhaltung verbessert (sich in der (0, 1)-Richtung im Werteraum bewegt). Berechne den Kosinus des Winkels zwischen dem Metrik-Gradienten & der reinen Fähigkeits-Richtung (1, 0). Erkläre: Ist der Metrik-Gradient gut mit 'Fähigkeit erhöhen' ausgerichtet (θ klein) oder schlecht ausgerichtet (θ groß)? Was sagt dies darüber voraus, was passiert, wenn Schüler für diese Metrik optimieren?

Multi-Ziel-Optimierung als Verteidigung gegen Goodhart

Hammings Verteidigung: Verwende mehrere Metriken gleichzeitig. Die geometrische Interpretation: Statt eine einzelne Zielfunktion f(x) zu maximieren, optimiere über einen Vektor von Zielen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Für ein Vektor-Ziel ist das Lösungskonzept die Pareto-Grenze: die Menge von Lösungen, bei denen kein Ziel verbessert werden kann, ohne ein anderes zu verschlechtern. Die Pareto-Grenze ersetzt das einzelne Optimum.

Warum dies gegen Goodhart schützt: Um die Metriken zu manipulieren, muss ein rationaler Agent eine Richtung im Werteraum finden, die alle fᵢ gleichzeitig erhöht (oder mindestens die Metriken, auf die sie beurteilt werden). Wenn die Metriken ausreichend unabhängig sind — ihre Gradienten-Richtungen sind ausreichend nicht-parallel — gibt es keine solche Richtung. Die Manipulation einer Metrik verschlechtert eine andere.

Der Grad der Verteidigung: Wenn die k Metrik-Gradienten den k-dimensionalen Raum aufspannen (sind linear unabhängig), dann verschlechtert das Optimieren einer echten Teilmenge von Metriken mindestens eine ausgeschlossene Metrik. Die vollständige Pareto-Verteidigung erfordert, dass keine Manipulationsrichtung existiert, die alle Metriken verbessert.

Messinvarianz: Eine Metrik M ist unveränderlich in Bezug auf ein irrelevantes Attribut α, wenn M(x + δα) = M(x) für Änderungen δ in α gilt. Die IQ-Metrik ist nicht unveränderlich in Bezug auf Testvorbereitung: IQ ändert sich, wenn Schüler den Test trainieren, ohne echte Gewinne in der zugrunde liegenden Konstruktion zu erzielen.

Entwurf eines Pareto-geschützten Metriksystems

Betrachte die Bewertung eines Forschungswissenschaftlers auf einem Zwei-Metrik-System: M₁ = Veröffentlichungen pro Jahr, M₂ = Zitierungsrate pro Papier (Zitate pro Papier).

Erkläre geometrisch, warum diese zwei Metriken zusammen schwerer zu manipulieren sind als jede alleine. Spezifisch: Beschreibe eine Strategie zur Maximierung von M₁ allein, eine Strategie zur Maximierung von M₂ allein, & zeige dann, dass jede dieser Strategien die andere Metrik verschlechtert. Dann: Gibt es irgendeine verbleibende Manipulationsstrategie, die beide gleichzeitig erhöht, ohne echten Forschungswert zu produzieren, & wenn ja, was ist sie?