Przestrzeń wartości a przestrzeń pomiarów
Modeluj świat jako dwie przestrzenie:
Przestrzeń wartości V: zbiór stanów świata w odniesieniu do tego, co naprawdę Ci zależy. Punkty w V reprezentują różne poziomy rzeczywistej wielkości (uczenie się uczniów, postęp militarny, dobrostan ekonomiczny).
Przestrzeń pomiarów M: zbiór wartości, które metryka może przyjmować. Metryka to funkcja f: V → M — mapowanie z przestrzeni wartości na przestrzeń pomiarów.
Prawidłowa metryka to taka, w której f jest bliska izometrii w istotnym obszarze: równe zmiany w M odpowiadają równym zmianom w V. Punkty blisko siebie w M odpowiadają punktom blisko siebie w V.
Zniekształcona metryka to taka, w której f nie jest izometrią: metryka kompresuje niektóre regiony V (czyniąc duże zmiany niewidzialnymi) i rozszerza inne (czyniąc małe zmiany wydają się duże). Kalibracja IQ to celowe zniekształcenie: mapuje rozkład surowego wyniku na rozkład Gaussa w M, niezależnie od rzeczywistego rozkładu inteligencji w V.
Prawo Goodharta w kategoriach mapowania: gdy M staje się celem, agenci zastosują wznoszenie gradientu w M. Ponieważ f jest zniekształceniem, wznoszenie gradientu w M nie odpowiada wznoszeniu gradientu w V. Agent porusza się w M bez poruszania się (lub poruszając się wstecz) w V.
Testowanie Ważności Metryki
Firma ocenia wydajność pracowników na skali od 1 do 5 gwiazdek. Skala jest kalibrowana tak, że 80% pracowników otrzymuje 3 lub wyżej. System oceny wydajności jest używany zarówno do decyzji dotyczących wynagrodzeń (gdzie liczy się ranking) jak i planów doskonalenia (gdzie liczy się poziom bezwzględny).
Wznoszenie Gradientu w Niewłaściwej Przestrzeni
Modeluj problem optymalizacji geometrycznie. Niech V = przestrzeń wartości (rzeczywiste uczenie się uczniów, postęp militarny, itd.) i M = przestrzeń metryki (wyniki testów, liczby ofiar, itd.).
Gradient rzeczywistej wartości: ∇_V(value) wskazuje kierunek w V, który zwiększa podstawową wielkość, na której Ci zależy.
Gradient metryki: ∇_M(metric) wskazuje kierunek w M, który zwiększa metrykę.
Ponieważ f: V → M nie jest izometrią, gradient metryki w przestrzeni wartości (f(∇_M)) nie jest wyrównany z ∇_V. Kąt między nimi, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mierzy dotkliwość niepowodzenia Goodharta.
Jeśli θ = 0: gradient metryki i gradient wartości wskazują ten sam kierunek. Optymalizacja metryki optymalizuje wartość. Brak korupcji Goodharta.
Jeśli θ = 90°: gradient metryki jest ortogonalny do wartości. Optymalizacja metryki porusza się w M bez ruchu w V wcale.
Jeśli θ = 180°: gradient metryki wskazuje odwrotnie do wartości. Optymalizacja metryki aktywnie degraduje wartość.
Gdy metryka staje się celem i agenci zastosują wznoszenie gradientu na metryce, następują f*(∇_M), nie ∇_V. Kąt rozbieżności θ rośnie z czasem, gdy metryka jest grana — mapowanie f staje się mniej izometryczne, gdy agenci znajdują regiony, gdzie ∇_M i ∇_V rozbiegają się najbardziej, ponieważ są to najbardziej efektywne ścieżki do grania.
Pomiar Rozbieżności
Rozważ prostą dwuwymiarową przestrzeń wartości V = (umiejętność, zgodność), gdzie umiejętność = rzeczywiste zrozumienie ucznia, zgodność = zdolność ucznia do przestrzegania procedur testowania.
Metryka testowa M = 0.3 × umiejętność + 0.7 × zgodność (konkretna kombinacja liniowa, gdzie zgodność ma wagę 70%).
Optymalizacja Wielocelowa jako Obrona przed Goodhartem
Obrona Hamminga: użyj wielu metryk jednocześnie. Interpretacja geometryczna: zamiast maksymalizować jedną funkcję celu f(x), optymalizuj wektor celów F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Dla wektora celu, koncepcja rozwiązania to granica Pareto: zbiór rozwiązań, gdzie żaden cel nie może być poprawiony bez pogorszenia innego. Granica Pareto zastępuje pojedynczy optimum.
Dlaczego to broni przed Goodhartem: aby grać metryki, racjonalny agent musi znaleźć kierunek w przestrzeni wartości, który zwiększa wszystkie fᵢ jednocześnie (lub przynajmniej metryki, na które są oceniani). Jeśli metryki są wystarczająco niezależne — ich kierunki gradientu są wystarczająco nie-równoległe — nie ma takiego kierunku. Granie jedną metryką degraduje inną.
Stopień obrony: jeśli k gradientów metryki rozpina k-wymiarową przestrzeń (są liniowo niezależne), to optymalizacja dowolnego właściwego podzbioru metryk degraduje przynajmniej jedną wykluczoną metrykę. Pełna obrona Pareto wymaga, aby nie istniał żaden kierunek grania, który poprawiłby wszystkie metryki.
Niezmienność pomiaru: metryka M jest niezmiennicza względem nieistotnego atrybutu α jeśli M(x + δα) = M(x) dla zmian δ w α. Metryka IQ nie jest niezmiennicza względem praktyki testowania: IQ zmienia się, gdy uczniowie praktykują test bez rzeczywistych osiągnięć w podstawowej konstrukcji.
Zaprojektuj System Metryki Chroniony Pareto
Rozważ ocenę naukowca badawczego w systemie dwóch metryk: M₁ = publikacje na rok, M₂ = współczynnik cytowań na artykuł (cytowania na artykuł).