価値空間と測定空間
世界を2つの空間としてモデル化します:
価値空間 V: あなたが本当に気にしている世界の状態に関するセット。V内のポイントは、実際の潜在的な量(学生の学習、軍事進捗、経済的福祉)の異なるレベルを表します。
測定空間 M: 指標が取ることができる値のセット。指標は関数 f: V → M — 価値空間から測定空間へのマッピングです。
有効な指標は、関数 f が関連する領域で近い同形性に近いものです:Mでの等しい変更がVでの等しい変更に相当します。M内の近いポイントは、V内の近いポイントに相当します。
歪む指標は、関数 f が非同形的である場合です:指標は V のいくつかの領域を圧縮(大きな変更が見えない)し、他のものを膨張(小さな変更が大きく見える)します。IQ カリブレーションは、知能の実際の分布を M にガウス分布にマッピングする意図的な歪みです。
マッピングのグッドハートの法則:Mが目標になる場合、エージェントは Mでの勾配上昇を適用します。関数 f が歪みであるため、Mでの勾配上昇は Vでの勾配上昇に相当しません。エージェントは Mを移動し(または後退し)、Vでは移動しない(または後退します)。
指標の有効性テスト
会社は、従業員のパフォーマンスを 1-5 の星で評価します。スケールは、従業員の 80% が 3 以上を受け取るようにカリブレーションされています。パフォーマンス評価システムは、ランク順位が重要な場合の報酬決定と、絶対的なレベルが重要な場合の改善計画の両方に使用されます。
Gradient Ascent in the Wrong Space
最適化問題を幾何学的にモデル化してください。V = 真の学生学習、軍事進展などを含む価値空間と、M = テストスコア、体数などを含む指標空間です。
真の価値の勾配:∇_V(value)は、Vで真の量を意識するものを増加させる方向を指します。
指標の勾配:∇_M(metric)は、Mで指標を増加させる方向を指します。
f: V → Mが等距離マッピングでないため、価値空間での指標勾配(f(∇_M))は、∇_Vと並行でない。勾配の角度θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))は、Goodhart失敗の重さを測定します。
θ = 0の場合:指標勾配と価値勾配が同じ方向を指します。指標を最適化することで価値も最適化されます。Goodhart汚染なし。
θ = 90°の場合:指標勾配は価値空間で垂直です。指標を最適化することでMが動き、Vには動きません。
θ = 180°の場合:指標勾配は価値に対して反対方向を指します。指標を最適化することで価値が悪化します。
指標が目標となり、エージェントが指標上の勾配上昇を適用する場合、エージェントはf*(∇_M)をフォローせず、∇_Vをフォローします。θのdivergence角が時間の経過とともに増加し、エージェントが∇_Mと∇_Vが最も離れて存在する領域を見つけることで、指標がゲームされることになります。
divergenceの測定
考慮するシンプルな二次元値空間V = (スキル、適合度)で、スキル = 学生的実際の理解、適合度 = 学生的テスト実施手続きの能力。
テスト指標M = 0.3 × スキル + 0.7 × 適合度(特定の線形結合、適合度が70%の重み)。
マルチオブジェクト最適化は、グッドハート防衛
ハミングの防衛:同時に複数の指標を使用します。幾何学的解釈:単一の目標関数f(x)を最大化するのではなく、オブジェクトベクタF(x) = (f₁(x)、f₂(x)、...、fₖ(x))を最適化します。
ベクトル指標の場合、解釈概念はパレートフロンティアです:もう一つの目標を向上させることができない解決策のセットです。パレートフロンティアは単一の最適解を置き換えます。
これがGoodhartの防衛につながる理由:ゲームをする合理的なエージェントは、すべてのfᵢが同時に増加する方向(あるいは評価されている指標で判断される場合、少なくともその指標)を見つける必要があります。指標が十分に独立している場合(つまり、勾配方向が十分に並行していない場合)、そのような方向は存在しません。1つの指標をゲームすることで、他の指標が劣化します。
防衛の度合:k個の指標の勾配がk次元空間を満たす場合(線形独立である場合)、適切なサブセットの指標を最適化することで、少なくとも1つの除外された指標が劣化します。完全なパレート防衛は、すべての指標を向上させるゲームの方向が存在しないことを必要とします。
測定不変性:指標Mは、無関係な属性αに対して不変である必要があります。M(x + δα) = M(x)。IQ指標は、実際の構造における本当の改善がない場合、テスト受け取り練習に応じて変わります。
パレート防衛指標システムの設計
研究科学者を評価するために、2つの指標システムを考慮してください:M₁ = 年間の論文数、M₂ = 索引率(1論文あたりの引用数)(引用数/論文)