Простір цінностей проти простору вимірювання
Моделюйте світ як дві простори:
Простір цінностей V: множина станів світу щодо чого ви насправді турбуєтеся. Точки в V представляють різні рівні справжньої внутрішньої кількості (викладання студентів, військовий прогрес, економічне благополуччя).
Простір вимірювання M: множина значень, які метрика може прийняти. Метрика - це функція f: V → M — відображення від простору цінностей до простору вимірювання.
Валідна метрика - це така, де f близька до ізометрії в відповідній області: рівні зміни в M відповідають рівним змінам в V. Сусідні точки в M відповідають сусіднім точкам в V.
Зайва метрика - це така, де f неізометрична: метрика стискає деякі області V (роблячи великі зміни невидимими) і розширює інші (роблячи маленькі зміни видимими як великі). Калібрування IQ - це спроектована зайва міра: вона відображає розподіл рожевих значень на Гауссову в M, незалежно від справжнього розподілу розумових здібностей в V.
Закон Гудгарта в термінах відображення: коли M стає цілями, агенти піднімаються по градієнту в M. Поскільки f є зайвою мірою, підйом по градієнту в M не відповідає підйому по градієнту в V. Агент рухається в M без руху (або зворотнього руху) в V.
Тест на валідність метрики
Компанія оцінює ефективність співробітників за шкалою від 1 до 5 зірок. Шкала калібрується так, щоб 80% співробітників отримали 3 або більше зірок. Система оглядів ефективності використовується як для прийняття рішень про компенсацію (де рангове значення має значення) так і для планів покращення (де абсолютне значення має значення).
Градієнтний підйом у неправильному просторі
Моделюйте оптимізаційну задачу геометрично. Допустимо, що V = простір цін (справжня навчання студентів, військовий прогрес тощо) і M = метричний простір (оцінки, кількість убитих тощо).
Градієнт справжньої цінності: ∇_V(ціна) вказує на напрямок в V, який збільшує основну кількість, яку ви цікавитесь.
Градієнт метрики: ∇_M(метрика) вказує на напрямок в M, який збільшує метрику.
Потому що f: V → M не є ізометрією, градієнт метрики в просторі цін (f(∇_M)) не збігається з ∇_V. Кут між ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), вимірює ступінь провалу Закону Гудгарта.
Якщо θ = 0: градієнт метрики і градієнт цінності вказують в одному напрямку. Оптимізація метрики оптимізує цінність. Відсутній провал Гудгарта.
Якщо θ = 90°: градієнт метрики перпендикулярний цінності. Оптимізація метрики рухається в M без руху в V.
Якщо θ = 180°: градієнт метрики вказує в протилежному напрямку від цінності. Оптимізація метрики активно погіршує цінність.
Коли метрика стає ціллю, і агенти застосовують градієнтний підйом щодо метрики, вони йдуть за f*(∇_M), а не за ∇_V. Кут відхилення θ зростає з часом, оскільки метрика піддається маніпуляціям - мапування f стає менш ізометричним, оскільки агенти знаходять області, де ∇_M і ∇_V відхиляються, тому ці області є найефективнішими для маніпуляції.
Оцінка відхилення
Розгляньмо простір значень у двох вимірах V = (уміння, послух), де уміння - реальне розуміння студента, послух - здатність студента дотримуватися процедур тестування.
Тестовий показник M = 0,3 × уміння + 0,7 × послух (специфічна лінійна комбінація, де послух має вагу 70%).
Множинна оптимізація як захист від Goodhart
Повторення Хаммінга: використовуйте кілька показників одночасно. Геометричне інтерпретування: замість максимізації єдиного функціонального призначення f(x), оптимізуйте вектор функціональних призначення F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Для векторного призначення концепцією рішення є Парето-фронтір: множина рішень, де одне призначення не можна покращити без погіршення іншого. Парето-фронтір замінює єдине оптимальне рішення.
Чому це захищає від Goodhart: раціональний агент, намагаючись зіграти з метриками, повинен знайти напрямок у просторі цінностей, який збільшує всі fᵢ одночасно (або принаймні ті, на які вони судяться). Якщо метрики достатньо незалежні - їх градієнтні напрямки достатньо не паралельні - такого напрямку не існує. Зігрування одного метрика погіршує інший.
Ступінь захисту: якщо k градієнти метрик охоплюють k-вимірний простір (линійно незалежні), то оптимізація будь-якого підмножини метрик погіршує принаймні одну виключену метрику. Повна Парадова захист потребує, щоб не існувало зігруваної стратегії, яка поліпшує всі метрики.
Незмінність вимірювання: метрика M є незмінною щодо непотрібного атрибута α, якщо M(x + δα) = M(x) для змін δ в α. Метрика IQ не є незмінною щодо практики тестування: IQ змінюється, коли студенти практикують тест без справжніх заробітків у підлічуваному конструкті.
Організуйте систему метрик, захищених від Парада
Розгляньте оцінювання науковця на основі двометричної системи: M₁ = публікації на рік, M₂ = частота цитування на статтю (цитування на статтю).