Przestrzen Wartości Vs Przestrzen Pomiaru
Modeluj świat jako dwa obszary:
Przestrzen Wartości V: zestaw stanów świata pod względem tego, co naprawdę wierzysz. Punkty w V reprezentują róże poziomy prawdziwego podstawowego ilości (nauczanie uczniów, postęp wojskowy, dobrobyt gospodarczy).
Przestrzen Pomiaru M: zestaw wartości, które metryka może przybrać. Metryka to funkcja f: V → M -- mapowanie z przestrzeni wartości na przestrzen pomiaru.
Metryka wąladowalna to taka, w której f jest bliska izometrii w zainteresowanym obszarze: róże zmian w M odpowiadają róże zmian w V. Bliskie punkty w M odpowiadają bliskie punkty w V.
Metryka zniekształcona to taka, w której f nie jest izometryczna: metryka skręca niektóre obszary V (uczyniając duże zmiany niewidoczne) i rozcięga inne (uczyniając małe zmiany wydawać duże). Kalibracja IQ to zżwićzony zniekształcenie: mapuje rozkład punktowy wynik na Gaussian w M, niezależnie od prawdziwego rozkładu inteligencji w V.
Prawo Goodharta w użyciu mapowania: kiedy M staje się celem, agenci wykonują wązgął w M. Ponieważ f jest zniekształceniem, wązgął w M nie odpowiada wązgąłowi w górę V. Agent porusza się w M bez poruszania się (lub cofania) w V.
Testowanie Poprawności Metryki
Firma ocenia wydajność pracowników na skali od 1 do 5 gwiazdek. Skala jest kalibrowana tak, ęe 80% pracowników otrzymuje 3 lub wyższ. System oceny wydajności jest używany dla obu decyzji o wynagrodzeniu (gdzie rangowanie w porędku ma znaczenie) i planów poprawy (gdzie poziom absolutny ma znaczenie).
Wzrost Współczynników w Błędnym Przestrzeni
Modeluj problem optymalizacji geometrycznie. Pozwól V = przestrzeń wartości (prawdziwa nauka uczniów, postępy wojskowe itp.) i M = przestrzeń metryczna (wyniki egzaminów, liczby ofiar, itp.).
Współczynnik prawdziwej wartości: ∇_V(wartość) wskazuje na kierunek w V, który zwiększa podstawową ilość, której się interesujesz.
Współczynnik metryki: ∇_M(metryka) wskazuje na kierunek w M, który zwiększa metrykę.
Ponieważ f: V → M nie jest izometrią, współczynnik metryki w przestrzeni wartości (f(∇_M)) nie jest zgodny z ∇_V. Kąt między nimi, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mierzy stopień niepowodzenia Goodharta.
Jeśli θ = 0: współczynnik metryki i współczynnik wartości wskazują na ten sam kierunek. Optymalizacja metryki optymalizuje wartość. Brak zepsucia Goodharta.
Jeśli θ = 90°: współczynnik metryki jest prostopadły do wartości. Optymalizacja metryki porusza się w M bez poruszania się w V.
Jeśli θ = 180°: współczynnik metryki wskazuje w przeciwnym kierunku do wartości. Optymalizacja metryki aktywnie degraduje wartość.
Gdy metryka staje się celem a agenci stosują wzrost współczynników metryki, idą za f*(∇_M), a nie ∇_V. Kąt odchylenia θ rośnie w czasie, gdy metrykę oszukiwano - mapa f staje się mniej izometryczna, gdy agenci znajdują regiony, w których ∇_M i ∇_V odchodzą najbardziej, ponieważ te są najbardziej efektywnymi ścieżkami do oszukiwania.
Mierzenie Odchylenia
Rozważ prostą dwuwymiarową przestrzeń wartości V = (umiejętność; zgodność), gdzie umiejętność to rzeczywista znajomość ucznia, zgodność to zdolność ucznia do stosowania się do procedur egzaminacyjnych.
Metryka testu M = 0,3 × umiejętność + 0,7 × zgodność (konkretna liniowa kombinacja, gdzie zgodność ma 70% wagę).
Optymalizacja wiel Cele jako Obrona Przed Goodhart
Obrona Hamminga: korzystaj z wielu metryk naraz. Geometryczne wyjaśnienie: zamiast maksymalizować pojedynczą funkcję celu f(x), optymalizuj nad wektorem celów F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Dla wektorowego celu, koncepcją rozwiązania jest przodująca kreska Pareta: zestaw rozwiązań, gdzie żaden cel nie może być poprawiony bez pogorszenia innego. Przodująca kreska Pareta zastępuje pojedyncze optimum.
Dlaczego to chroni przed Goodhartem: aby oszukiwać metryki, racjonalny agent musi znaleźć kierunek w przestrzeni wartości, który zwiększa wszystkie fᵢ jednocześnie (lub przynajmniej te metryki, które są oceniane). Jeśli metryki są wystarczająco niezależne - ich kierunki gradientów są wystarczająco nieprostopadłe - nie istnieje taki kierunek. Oszukiwanie jednej metryki degraduje inną.
Stopień obrony: jeśli k wektorów gradientów metryk pokrywa k-wymiarowy przestrzeń (są liniowo niezależne), to optymalizacja dowolnego podzbioru metryk degraduje przynajmniej jedną wykluczoną metrykę. Pełna obrona Pareto wymaga, aby nie istniał żaden kierunek oszukiwania, który poprawia wszystkie metryki.
Niezmienniczość pomiaru: metryka M jest niezmiennicza względem nieistotnej cechy α, jeśli M(x + δα) = M(x) dla zmian δ w α. Metryka IQ nie jest niezmiennicza względem praktyki związanej z testowaniem: IQ zmienia się, gdy uczniowie praktykują test bez rzeczywistych zysków w zakresie konstruktu podstawowego.
Zaprojektuj system dwumetryczny z obroną Pareto
Rozważ ocenę naukowca badawczego na podstawie dwumetrycznego systemu: M₁ = publikacje na rok, M₂ = stopa cytowań na artykuł (cytowania na artykuł).