English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

гість
1 / ?
назад до уроків

Простір цінностей проти простору вимірювання

Моделюйте світ як дві простори:

Простір цінностей V: множина станів світу щодо чого ви насправді турбуєтеся. Точки в V представляють різні рівні справжньої внутрішньої кількості (викладання студентів, військовий прогрес, економічне благополуччя).

Простір вимірювання M: множина значень, які метрика може прийняти. Метрика - це функція f: V → M — відображення від простору цінностей до простору вимірювання.

Валідна метрика - це така, де f близька до ізометрії в відповідній області: рівні зміни в M відповідають рівним змінам в V. Сусідні точки в M відповідають сусіднім точкам в V.

Зайва метрика - це така, де f неізометрична: метрика стискає деякі області V (роблячи великі зміни невидимими) і розширює інші (роблячи маленькі зміни видимими як великі). Калібрування IQ - це спроектована зайва міра: вона відображає розподіл рожевих значень на Гауссову в M, незалежно від справжнього розподілу розумових здібностей в V.

Закон Гудгарта в термінах відображення: коли M стає цілями, агенти піднімаються по градієнту в M. Поскільки f є зайвою мірою, підйом по градієнту в M не відповідає підйому по градієнту в V. Агент рухається в M без руху (або зворотнього руху) в V.

Зайва міра: Простір цінностей проти простору вимірювання

Тест на валідність метрики

Компанія оцінює ефективність співробітників за шкалою від 1 до 5 зірок. Шкала калібрується так, щоб 80% співробітників отримали 3 або більше зірок. Система оглядів ефективності використовується як для прийняття рішень про компенсацію (де рангове значення має значення) так і для планів покращення (де абсолютне значення має значення).

Ця метрика ближча до ізометричного відображення чи зайваного відображення справжньої ефективності? Обґрунтуйте, використовуючи концепції стискання та розширення. Потім: для якого використання (компенсаційні рішення або плани покращення) зайва міра має значення більше, і чому?

Градієнтний підйом у неправильному просторі

Моделюйте оптимізаційну задачу геометрично. Допустимо, що V = простір цін (справжня навчання студентів, військовий прогрес тощо) і M = метричний простір (оцінки, кількість убитих тощо).

Градієнт справжньої цінності: ∇_V(ціна) вказує на напрямок в V, який збільшує основну кількість, яку ви цікавитесь.

Градієнт метрики: ∇_M(метрика) вказує на напрямок в M, який збільшує метрику.

Потому що f: V → M не є ізометрією, градієнт метрики в просторі цін (f(∇_M)) не збігається з ∇_V. Кут між ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), вимірює ступінь провалу Закону Гудгарта.

Якщо θ = 0: градієнт метрики і градієнт цінності вказують в одному напрямку. Оптимізація метрики оптимізує цінність. Відсутній провал Гудгарта.

Якщо θ = 90°: градієнт метрики перпендикулярний цінності. Оптимізація метрики рухається в M без руху в V.

Якщо θ = 180°: градієнт метрики вказує в протилежному напрямку від цінності. Оптимізація метрики активно погіршує цінність.

Коли метрика стає ціллю, і агенти застосовують градієнтний підйом щодо метрики, вони йдуть за f*(∇_M), а не за ∇_V. Кут відхилення θ зростає з часом, оскільки метрика піддається маніпуляціям - мапування f стає менш ізометричним, оскільки агенти знаходять області, де ∇_M і ∇_V відхиляються, тому ці області є найефективнішими для маніпуляції.

Оцінка відхилення

Розгляньмо простір значень у двох вимірах V = (уміння, послух), де уміння - реальне розуміння студента, послух - здатність студента дотримуватися процедур тестування.

Тестовий показник M = 0,3 × уміння + 0,7 × послух (специфічна лінійна комбінація, де послух має вагу 70%).

У цьому двовимірному моделі, градієнт метрики є вектором (0,3; 0,7) у просторі (уміння; послух). Учень оптимізує метрику покращенням послуху (рух у напрямку (0; 1) у просторі значень). Визначте косинус кута між градієнтом метрики та чистою умінням (1; 0). Обґрунтуйте: чи є градієнт метрики добре зорієнтованим щодо 'зростання уміння' (мала θ) чи погано (велика θ)? Чим це передбачає, що відбувається, коли студенти оптимізують цей показник?

Множинна оптимізація як захист від Goodhart

Повторення Хаммінга: використовуйте кілька показників одночасно. Геометричне інтерпретування: замість максимізації єдиного функціонального призначення f(x), оптимізуйте вектор функціональних призначення F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Для векторного призначення концепцією рішення є Парето-фронтір: множина рішень, де одне призначення не можна покращити без погіршення іншого. Парето-фронтір замінює єдине оптимальне рішення.

Чому це захищає від Goodhart: раціональний агент, намагаючись зіграти з метриками, повинен знайти напрямок у просторі цінностей, який збільшує всі fᵢ одночасно (або принаймні ті, на які вони судяться). Якщо метрики достатньо незалежні - їх градієнтні напрямки достатньо не паралельні - такого напрямку не існує. Зігрування одного метрика погіршує інший.

Ступінь захисту: якщо k градієнти метрик охоплюють k-вимірний простір (линійно незалежні), то оптимізація будь-якого підмножини метрик погіршує принаймні одну виключену метрику. Повна Парадова захист потребує, щоб не існувало зігруваної стратегії, яка поліпшує всі метрики.

Незмінність вимірювання: метрика M є незмінною щодо непотрібного атрибута α, якщо M(x + δα) = M(x) для змін δ в α. Метрика IQ не є незмінною щодо практики тестування: IQ змінюється, коли студенти практикують тест без справжніх заробітків у підлічуваному конструкті.

Організуйте систему метрик, захищених від Парада

Розгляньте оцінювання науковця на основі двометричної системи: M₁ = публікації на рік, M₂ = частота цитування на статтю (цитування на статтю).

Геометрично поясніть, чому ці дві метрики разом важче зіграти, ніж кожна метрика поодинці. Специфічно: опишіть стратегію максимізації M₁ в одиночці, стратегію максимізації M₂ в одиночці та потім продемонструйте, що кожна з тих стратегій погіршує іншу метрику. Потім: чи існує будь-яка залишкова зігрувана стратегія, яка збільшує обидві одночасно без виробництва справжньої наукової цінності та якщо так, то яка це стратегія?