un — Геометрия того, что вы измеряете

un

гость

1 / ?

Пространство значений vs пространство измерений

Представьте мир как два пространства:

Пространство значений V: совокупность состояний мира относительно того, что вас действительно волнует. Точки в V представляют различные уровни истинной основной величины (обучение студентов, военный прогресс, экономическое благополучие).

Пространство измерений M: совокупность значений, которые может принимать метрика. Метрика — это функция f: V → M — отображение из пространства значений в пространство измерений.

Корректная метрика — это метрика, где f близка к изометрии в соответствующей области: равные изменения в M соответствуют равным изменениям в V. Близкие точки в M соответствуют близким точкам в V.

Искажённая метрика — это метрика, где f не является изометрией: метрика сжимает некоторые области V (делая большие изменения невидимыми) и расширяет другие (делая маленькие изменения кажущимися большими). Калибровка IQ — это спроектированное искажение: она отображает распределение сырых баллов в гауссово распределение в M, независимо от истинного распределения интеллекта в V.

Закон Гудхарта в терминах отображений: когда M становится целью, агенты применяют градиентный подъём в M. Поскольку f — искажение, градиентный подъём в M не соответствует градиентному подъёму в V. Агент движется в M, не двигаясь (или двигаясь в обратном направлении) в V.

Искажение метрики: пространство значений vs пространство измерений

Проверка корректности метрики

Компания оценивает производительность сотрудников по 5-звёздочной шкале. Шкала откалибрована так, чтобы 80% сотрудников получали оценку 3 или выше. Система оценки производительности используется как для решений о компенсации (где порядок рангов имеет значение), так и для планов улучшения (где абсолютный уровень имеет значение).

Является ли эта метрика ближе к изометричному отображению или искажённому отображению истинной производительности? Объясните, используя понятия сжатия и расширения. Затем: для какого варианта использования (компенсация или планы улучшения) искажение имеет большее значение и почему?

Градиентный подъём в неправильном пространстве

Моделируйте проблему оптимизации геометрически. Пусть V = пространство значений (истинное обучение студентов, военный прогресс и т.д.) и M = пространство метрик (тестовые баллы, подсчёты потерь и т.д.).

Градиент истинного значения: ∇_V(value) указывает в направлении в V, которое увеличивает основную величину, которая вас волнует.

Градиент метрики: ∇_M(metric) указывает в направлении в M, которое увеличивает метрику.

Поскольку f: V → M не является изометрией, градиент метрики в пространстве значений (f(∇_M)) не совпадает с ∇_V. Угол между ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), измеряет серьёзность отказа Гудхарта.

Если θ = 0: градиент метрики и градиент значения указывают в одном направлении. Оптимизация метрики оптимизирует значение. Нет коррупции Гудхарта.

Если θ = 90°: градиент метрики ортогонален значению. Оптимизация метрики движется в M, не двигаясь в V вообще.

Если θ = 180°: градиент метрики указывает в направлении, противоположном значению. Оптимизация метрики активно деградирует значение.

Когда метрика становится целью и агенты применяют градиентный подъём по метрике, они следуют f*(∇_M), а не ∇_V. Угол расхождения θ растёт со временем, когда метрика игнорируется — отображение f становится менее изометричным, поскольку агенты находят области, где ∇_M и ∇_V расходятся наиболее, потому что это наиболее эффективные пути для обхода системы.

Измерение расхождения

Рассмотрим простое двумерное пространство значений V = (skill, compliance), где skill = фактическое понимание студентом, compliance = способность студента следовать процедурам сдачи тестов.

Метрика теста M = 0.3 × skill + 0.7 × compliance (специфическая линейная комбинация, где compliance имеет вес 70%).

В этой 2D-модели градиент метрики — это вектор (0.3, 0.7) в пространстве (skill, compliance). Студент оптимизирует метрику, улучшая только compliance (движение в направлении (0, 1) в пространстве значений). Вычислите косинус угла между градиентом метрики и чистым направлением skill (1, 0). Объясните: хорошо ли градиент метрики согласован с 'увеличением skill' (θ маленький) или плохо согласован (θ большой)? Что это предсказывает о том, что происходит, когда студенты оптимизируют эту метрику?

Многоцелевая оптимизация как защита от Гудхарта

Защита Хэмминга: используйте несколько метрик одновременно. Геометрическая интерпретация: вместо максимизации единственной целевой функции f(x), оптимизируйте по вектору целей F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Для векторной цели концепция решения — это граница Парето: множество решений, где ни одна цель не может быть улучшена без деградации другой. Граница Парето заменяет единственный оптимум.

Почему это защищает от Гудхарта: чтобы обойти метрики, рациональный агент должен найти направление в пространстве значений, которое увеличивает все fᵢ одновременно (или по крайней мере метрики, по которым их оценивают). Если метрики достаточно независимы — их градиентные направления достаточно не параллельны — такого направления не существует. Обход одной метрики деградирует другую.

Степень защиты: если k градиентов метрик охватывают k-мерное пространство (линейно независимы), то оптимизация любого правильного подмножества метрик деградирует по крайней мере одну исключённую метрику. Полная защита Парето требует, чтобы не существовало направления обхода, которое улучшает все метрики.

Инвариантность измерения: метрика M инвариантна относительно нерелевантного атрибута α, если M(x + δα) = M(x) для изменений δ в α. Метрика IQ не является инвариантной относительно практики сдачи тестов: IQ изменяется, когда студенты практикуют тест без фактического прироста в основной конструкции.

Разработайте защищённую Парето систему метрик

Рассмотрите оценку научного исследователя по двухметричной системе: M₁ = публикации в год, M₂ = уровень цитирования на статью (цитирования на статью).

Объясните геометрически, почему эти две метрики вместе сложнее обойти, чем каждую метрику отдельно. Конкретно: опишите стратегию максимизации M₁ отдельно, стратегию максимизации M₂ отдельно, а затем покажите, что каждая из этих стратегий деградирует другую метрику. Затем: существует ли остаточная стратегия обхода, которая увеличивает обе одновременно без создания подлинной исследовательской ценности, и если да, то какая это стратегия?