English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

гость
1 / ?
назад к урокам

Пространство значений vs Пространство измерений

Моделируйте мир как два пространства:

Пространство значений V: множество состояний мира относительно того, что вы на самом деле уважаете. Точки в V представляют разные уровни истинного базового количества (обучение студентов, прогресс военных действий, экономическое благополучие).

Пространство измерений M: множество значений, которые может принимать метрика. Метрика - это функция f: V → M — отображение от пространства значений к пространству измерений.

Валидная метрика - это та, где f близка к изометрии в соответствующей области: равные изменения в M соответствуют равным изменениям в V. Ближайшие точки в M соответствуют ближайшим точкам в V.

Distorted метрика - это та, где f не изометрична: метрика сжимает некоторые области V (делая большие изменения невидимыми) и расширяет другие (делая маленькие изменения казаться большими). Калибровка IQ - это преднамеренное искажение: она отображает распределение исходных результатов в нормальное распределение в M, независимо от истинного распределения интеллекта в V.

Закон Гудхарта в терминах отображения: когда M становится целью, агенты применяют градиентный подъем в M. Поскольку f является искажением, градиентный подъем в M не соответствует градиентному подъему в V. Агент движется в M без движения (или в обратном направлении) в V.

Повреждение метрики: Пространство значений vs Пространство измерений

Тест на проверку валидности метрики

Компания оценивает производительность сотрудников на шкале от 1 до 5 звезд. Шкала калибрируется так, что 80% сотрудников получают 3 или выше. Система оценок производительности используется для принятия решений о компенсации (где ранговый порядок имеет значение) и для планов по улучшению (где абсолютный уровень имеет значение).

Это метрика ближе к изометрическому отображению или искаженному отображению истинного выполнения? Объясните, используя концепции сжатия и расширения. Затем: для какого использования (компенсационных выплат или планов по улучшению) искажение имеет большее значение, и почему?

Восходящее направление в неправильном пространстве

Моделируйте задачу оптимизации геометрически. Пусть V = пространство значений (истинное обучение студентов, прогресс в военных действиях и т.д.) и M = метрическое пространство (оценки, количество убитых и т.д.).

Градиент истинного значения: ∇_V(значение) указывает на направление в V, которое увеличивает основную величину, в которой вы интересуетесь.

Градиент метрики: ∇_M(метрика) указывает на направление в M, которое увеличивает метрику.

Потому что f: V → M не является изометрией, градиент метрики в пространстве значений (f(∇_M)) не совпадает с ∇_V. Угол между ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), измеряет степень нарушения закона Гудхарта.

Если θ = 0: градиент метрики и градиент значения указывают в одном направлении. Оптимизация метрики оптимизирует значение. Ниакого нарушения закона Гудхарта.

Если θ = 90°: градиент метрики перпендикулярен значению. Оптимизация метрики двигается в M без движения в V.

Если θ = 180°: градиент метрики указывает в противоположном направлении к значению. Оптимизация метрики активно ухудшает значение.

Когда метрика становится целью, и агенты применяют восходящее направление к метрике, они следуют f*(∇_M), а не ∇_V. Угол разворота θ растет со временем, поскольку метрика поддается манипуляциям — отображение f становится менее изометрическим, поскольку агенты находят регионы, где ∇_M и ∇_V расходятся, потому что это самые эффективные пути для манипуляции.

Измерение разворота

Рассмотрим простое двухмерное пространство значений V = (умение, соответствие), где умение - фактическое понимание студента, соответствие - способность студента следовать процедурам тестирования.

Тестовая метрика M = 0.3 × умение + 0.7 × соответствие (специфический линейный набор, где соответствие имеет вес 70%).

В этом 2D-моделе градиент метрики представляет собой вектор (0.3, 0.7) в пространстве (умение, соответствие). Ученик оптимизирует метрику, улучшая соответствие (движется в направлении (0, 1) в пространстве значений). Вычислите косинус угла между градиентом метрики и чисто-умением направлением (1, 0). Объясните: хорошо ли метрика выравнена с 'увеличением умения' (малый угол θ) или плохо выравнена (большой угол θ)? Что это предсказывает о том, что происходит, когда студенты оптимизируют эту метрику?

Многокритериальная оптимизация как защита от эффекта Гудхарта

Защита Хэмминга: использовать несколько метрик одновременно. Геометрическое представление: вместо максимизации одной целевой функции f(x) оптимизируем вектор целевых функций F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Для векторной цели концепцией решения является Парадигма Парада: множество решений, где ни одна цель не может быть улучшена без ухудшения другой. Парадигма Парада заменяет единственную оптимальность.

Почему это защищает от эффекта Гудхарта: чтобы обмануть метрики, рациональный агент должен найти направление в пространстве значений, которое увеличивает все fᵢ одновременно (или по крайней мере те метрики, по которым они оцениваются). Если метрики достаточно независимы - их градиентные направления достаточно не параллельны - такого направления не существует. Обман одного метрики ухудшает другой.

Степень защиты: если k градиентов метрик образуют k-мерное пространство (линейно независимы), то оптимизация любой подмножества метрик ухудшает по крайней мере одну исключенную метрику. Полное партионное обеспечение требует, чтобы не существовало направления обмана, которое улучшало все метрики.

Неизменность измерения: метрика M неизменна относительно непpertinent_1relevant_2_атрибута α, если M(x + δα) = M(x) для изменений δ в α. Метрика IQ не неизменна относительно практики прохождения теста: IQ изменяется, когда студенты практикуют тест без реальных приобретений в underlying_1_конструкции.

Проектирование системы метрик с защитой Пaretos_1_

Рассмотрим оценку научного исследователя по двуметричной системе: M₁ = публикации в год, M₂ = коэффициент цитирования за статью (цитируемость за статью).

Геометрически объясните, почему эти две метрики вместе сложнее обманывать, чем каждая метрика в одиночку. Специфически: опишите стратегию максимизации M₁ в одиночку, стратегию максимизации M₂ в одиночку и затем продемонстрируйте, что каждая из тех стратегий ухудшает другую метрику. Затем: существует ли остаточная стратегия обмана, которая увеличивает обе одновременно без производства реальной научной ценности, и если да, то что это такое?