un

guest
1 / ?
back to lessons

Wertebereich vs Messbereich

Modelliere die Welt als zwei Räume:

Wertebereich V: die Menge der Zustände der Welt in Bezug auf, was du tatsächlich interessiert. Punkte in V stellen verschiedene Stufen der wahren zugrundeliegenden Größe (Schülerleistung, militärischer Fortschritt, wirtschaftliches Wohlergehen) dar.

Messbereich M: die Menge der Werte, die die Metrik annehmen kann. Eine Metrik ist eine Funktion f: V → M — ein Abbild vom Wertebereich in den Messbereich.

Eine gültige Metrik ist eine, bei der f in dem relevanten Bereich nahe an einer Isometrie ist: Gleich große Änderungen in M entsprechen gleich großen Änderungen in V. Nahe Punkte in M entsprechen nahe Punkte in V.

Eine verzerrte Metrik ist eine, bei der f nicht isometrisch ist: Die Metrik komprimiert bestimmte Bereiche von V (was große Veränderungen unsichtbar macht) und erweitert andere (was kleine Veränderungen als große erscheinen lässt). Die IQ-Kalibrierung ist eine geplante Verzerrung: Sie mapping die Rohpunktwertverteilung auf einen Gaussian in M, unabhängig von der tatsächlichen Verteilung von Intelligenz in V.

Goodharts Gesetz in Abbildungstermen: Wenn M ein Ziel wird, steigen die Agenten in M den Gradienten an. Da f eine Verzerrung ist, entspricht Gradientenanstieg in M nicht Gradientenanstieg in V. Der Agent bewegt sich in M, ohne vorwärts (oder rückwärts) in V zu bewegen.

Metrikverzerrung: Wertebereich vs Messbereich

Prüfung der Metrik-Gültigkeit

Ein Unternehmen bewertet die Leistung von Mitarbeitern auf einer 1-5-Sterne-Skala. Die Skala ist so kalibriert, dass 80% der Mitarbeiter 3 oder höher erhalten. Das Leistungsbeurteilungssystem wird für Entscheidungen über Entschädigung (wo Rangreihenfolge wichtig ist) und Verbesserungspläne (wo die absolute Leistung wichtig ist) verwendet.

Ist diese Metrik näher an einer isometrischen Abbildung oder einer verzerrten Abbildung der wahren Leistung? Erkläre dies mit den Begriffen Kompression und Erweiterung. Dann: für welchen Einsatzfall (Entschädigung oder Verbesserungspläne) ist die Verzerrung wichtiger und warum?

Gradientenanstieg im falschen Raum

Modellieren Sie das Optimierungsproblem geometrisch. Lassen Sie V = Wertebereich (wahre Schülerleistung, militärischer Fortschritt usw.) und M = metrischer Raum (Prüfungsnoten, Tötungsziele usw.).

Der Gradient der wahren Wertung: ∇_V(Wert) zeigt in die Richtung in V, die die unterliegende Größe, die Sie interessiert, erhöht.

Der Gradient der Metrik: ∇_M(Metrik) zeigt in die Richtung in M, die die Metrik erhöht.

Da f: V → M keine Isometrie ist, ist der Gradient der Metrik im Wertebereich (f(∇_M)) nicht ausgerichtet mit ∇_V. Der Winkel zwischen ihnen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misst die Schwere der Goodhart-Fehlfunktion.

Wenn θ = 0: Der metrische Gradient und der Wertgradient zeigen in die gleiche Richtung. Die Optimierung der Metrik optimiert den Wert. Keine Goodhart-Kontamination.

Wenn θ = 90°: Der metrische Gradient ist orthogonal zu Wert. Die Optimierung der Metrik bewegt sich in M ohne in V voranzugehen.

Wenn θ = 180°: Der metrische Gradient zeigt entgegengesetzt zur Wertung. Die Optimierung der Metrik verschlechtert aktiv den Wert.

Wenn die Metrik ein Ziel wird und Agenten den Gradientenanstieg auf der Metrik durchführen, folgen sie f*(∇_M), nicht ∇_V. Der Abstandswinkel θ wächst im Laufe der Zeit, während die Metrik manipuliert wird - die Abbildung f wird weniger isometrisch, da die Agenten die Bereiche finden, in denen ∇_M und ∇_V am meisten divergieren, weil genau diese Bereiche am effizientesten für die Manipulation geeignet sind.

Messung des Abstands

Überlege dir ein einfaches zweidimensionales Wertesraum V = (Fähigkeit, Einhaltung), wobei Fähigkeit der tatsächliche Verständnis des Schülers ist und Einhaltung die Fähigkeit des Schülers, Test-Verfahren zu befolgen.

Ein Test-Metriks M = 0,3 × Fähigkeit + 0,7 × Einhaltung (eine spezifische lineare Kombination, bei der Einhaltung 70% Gewicht hat).

In diesem 2D-Modell ist der Gradient des Metriks der Vektor (0,3; 0,7) im (Fähigkeit, Einhaltung) Raum. Ein Schüler optimiert das Metrik, indem er die Einhaltung verbessert (indem er in die (0,1) Richtung in Wert Raum bewegt). Berechnen Sie den Kosinus des Winkels zwischen dem Metrik-Gradienten und der reinen-Fähigkeit-Richtung (1,0). Erklären Sie: Ist der Metrik-Gradient gut ausgerichtet mit 'Zunahme der Fähigkeit' (kleiner Winkel) oder schlecht ausgerichtet (großer Winkel)? Was sagt das über das vorausgesagete Verhalten von Schülern, wenn sie sich auf dieses Metrik optimieren, vor?

Mehrzweck-Optimierung als Verteidigung gegen Goodhart

Hamming's Verteidigung: Verwende mehrere Metriken gleichzeitig. Die geometrische Interpretation: statt eine einzelne Zielfunktion f(x) zu maximieren, optimiere über einen Vektor von Zielen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Für einen Vektor-Ziel, ist das Lösungs-Konzept der Pareto-Frontier: der Satz von Lösungen, bei denen keine Zielvorgabe verbessert werden kann, ohne eine andere zu verschlechtern. Die Pareto-Frontier ersetzt das einzelne Optimum.

Warum schützt dies vor Goodhart: Um die Metriken zu manipulieren, muss ein rationale Agent eine Richtung im Wertebereich finden, die alle fᵢ gleichzeitig erhöht (oder zumindest diejenigen, nach denen sie beurteilt werden). Wenn die Metriken genügend unabhängig sind - ihre Gradientenrichtungen sind genügend nicht-parallel - gibt es keine solche Richtung. Das Gaming einer Metrik verschlechtert eine andere.

Der Grad der Verteidigung: Wenn die k Gradienten der Metriken den k-dimensionalen Raum abdecken (linear unabhängig sind), dann optimiert das Optimieren einer geeigneten Teilmenge der Metriken zumindest eine ausgeschlossene Metrik. Eine vollständige Pareto-Verteidigung erfordert, dass keine Gaming-Richtung existiert, die alle Metriken verbessert.

Messungsinvarianz: Eine Metrik M ist invariant bezüglich eines irrelevanten Merkmals α, wenn M(x + δα) = M(x) für Änderungen δ in α. Das IQ-Maß ist nicht invariant bezüglich der Test-Praxis: Das IQ ändert sich, wenn die Schüler den Test ohne echte Gewinne im zugrunde liegenden Konstrukt üben.

Entwerfen eines pareto-geschützten Metrisierungssystems

Stellen Sie sich vor, ein Forschungswissenschaftler wird auf der Grundlage einer zweimetrischen Systematik bewertet: M₁ = Veröffentlichungen pro Jahr, M₂ = Zitierungsrate pro Paper (Zitationen pro Paper).

Zeigen Sie geometrisch, warum diese beiden Metriken zusammen schwerer zu manipulieren sind als jede Metrik für sich. Insbesondere: Beschreiben Sie eine Strategie zur Maximierung von M₁ alleine, eine Strategie zur Maximierung von M₂ alleine und zeigen Sie dann, dass jede dieser Strategien die andere Metrik verschlechtert. Dann: Gibt es eine verbleibende Manipulationsstrategie, die beide gleichzeitig erhöht, ohne echten Forschungswert zu erzeugen, und wenn ja, was ist sie?