Пространство значений vs Пространство измерений
Моделируйте мир как два пространства:
Пространство значений V: множество состояний мира относительно того, что вы на самом деле уважаете. Точки в V представляют разные уровни истинного базового количества (обучение студентов, прогресс военных действий, экономическое благополучие).
Пространство измерений M: множество значений, которые может принимать метрика. Метрика - это функция f: V → M — отображение от пространства значений к пространству измерений.
Валидная метрика - это та, где f близка к изометрии в соответствующей области: равные изменения в M соответствуют равным изменениям в V. Ближайшие точки в M соответствуют ближайшим точкам в V.
Distorted метрика - это та, где f не изометрична: метрика сжимает некоторые области V (делая большие изменения невидимыми) и расширяет другие (делая маленькие изменения казаться большими). Калибровка IQ - это преднамеренное искажение: она отображает распределение исходных результатов в нормальное распределение в M, независимо от истинного распределения интеллекта в V.
Закон Гудхарта в терминах отображения: когда M становится целью, агенты применяют градиентный подъем в M. Поскольку f является искажением, градиентный подъем в M не соответствует градиентному подъему в V. Агент движется в M без движения (или в обратном направлении) в V.
Тест на проверку валидности метрики
Компания оценивает производительность сотрудников на шкале от 1 до 5 звезд. Шкала калибрируется так, что 80% сотрудников получают 3 или выше. Система оценок производительности используется для принятия решений о компенсации (где ранговый порядок имеет значение) и для планов по улучшению (где абсолютный уровень имеет значение).
Восходящее направление в неправильном пространстве
Моделируйте задачу оптимизации геометрически. Пусть V = пространство значений (истинное обучение студентов, прогресс в военных действиях и т.д.) и M = метрическое пространство (оценки, количество убитых и т.д.).
Градиент истинного значения: ∇_V(значение) указывает на направление в V, которое увеличивает основную величину, в которой вы интересуетесь.
Градиент метрики: ∇_M(метрика) указывает на направление в M, которое увеличивает метрику.
Потому что f: V → M не является изометрией, градиент метрики в пространстве значений (f(∇_M)) не совпадает с ∇_V. Угол между ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), измеряет степень нарушения закона Гудхарта.
Если θ = 0: градиент метрики и градиент значения указывают в одном направлении. Оптимизация метрики оптимизирует значение. Ниакого нарушения закона Гудхарта.
Если θ = 90°: градиент метрики перпендикулярен значению. Оптимизация метрики двигается в M без движения в V.
Если θ = 180°: градиент метрики указывает в противоположном направлении к значению. Оптимизация метрики активно ухудшает значение.
Когда метрика становится целью, и агенты применяют восходящее направление к метрике, они следуют f*(∇_M), а не ∇_V. Угол разворота θ растет со временем, поскольку метрика поддается манипуляциям — отображение f становится менее изометрическим, поскольку агенты находят регионы, где ∇_M и ∇_V расходятся, потому что это самые эффективные пути для манипуляции.
Измерение разворота
Рассмотрим простое двухмерное пространство значений V = (умение, соответствие), где умение - фактическое понимание студента, соответствие - способность студента следовать процедурам тестирования.
Тестовая метрика M = 0.3 × умение + 0.7 × соответствие (специфический линейный набор, где соответствие имеет вес 70%).
Многокритериальная оптимизация как защита от эффекта Гудхарта
Защита Хэмминга: использовать несколько метрик одновременно. Геометрическое представление: вместо максимизации одной целевой функции f(x) оптимизируем вектор целевых функций F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Для векторной цели концепцией решения является Парадигма Парада: множество решений, где ни одна цель не может быть улучшена без ухудшения другой. Парадигма Парада заменяет единственную оптимальность.
Почему это защищает от эффекта Гудхарта: чтобы обмануть метрики, рациональный агент должен найти направление в пространстве значений, которое увеличивает все fᵢ одновременно (или по крайней мере те метрики, по которым они оцениваются). Если метрики достаточно независимы - их градиентные направления достаточно не параллельны - такого направления не существует. Обман одного метрики ухудшает другой.
Степень защиты: если k градиентов метрик образуют k-мерное пространство (линейно независимы), то оптимизация любой подмножества метрик ухудшает по крайней мере одну исключенную метрику. Полное партионное обеспечение требует, чтобы не существовало направления обмана, которое улучшало все метрики.
Неизменность измерения: метрика M неизменна относительно непpertinent_1relevant_2_атрибута α, если M(x + δα) = M(x) для изменений δ в α. Метрика IQ не неизменна относительно практики прохождения теста: IQ изменяется, когда студенты практикуют тест без реальных приобретений в underlying_1_конструкции.
Проектирование системы метрик с защитой Пaretos_1_
Рассмотрим оценку научного исследователя по двуметричной системе: M₁ = публикации в год, M₂ = коэффициент цитирования за статью (цитируемость за статью).