值空間 vs 測量空間
將世界模型為兩個空間:
值空間 V: 根據你真正關心的方面,世界的各個狀態組成的集合。 V 中的點代表對真實底層量的不同層級(學生學習、軍事進展、經濟福祉)。
測量空間 M: 指標可以採取的值的集合。一個指標是一個函數 f: V → M —— 從值空間映射到測量空間。
一個 有效的指標 是指 f 將近似於同胚在相關區域:M 中的相等變化對應於 V 中的相等變化。M 中的鄰近點對應於 V 中的鄰近點。
一個 扭曲的指標 是指 f 是非同胚的:指標將 V 中的某些區域壓縮(使大變化看不見)並擴展其他區域(使小變化看起來很大)。IQ 調節是一個設計的扭曲:它將原始分數分布映射到 M 中的高斯分布,不管 V 中智力的真實分布。
Goodhart 法則在映射術語中:當 M 成為一個目標時,代理人在 M 上進行梯度上升。因為 f 是一個扭曲,梯度在 M 上的上升不對應於 V 上的梯度上升。代理人在 M 中移動,而在 V 中沒有移動(或後退)。
測試指標有效性
一家公司根據 1-5 星尺度評估員工表現。這個尺度是調節的,以便 80% 的員工獲得 3 或更高的分數。性能評審系統用於兩個用途:一是薪酬決策(其中排名順序很重要);二是改進計劃(其中絕對水平很重要)。
梯度上升在錯誤空間
從幾何學的角度來模型化優化問題。讓V = 真實值空間(學生學習、軍事進展等)和M = 指標空間(測試分數、人數等)。
真實值的梯度:∇_V(value)在V中指向您關心的底層量增加的方向。
指標的梯度:∇_M(metric)在M中指向增加指標的方向。
因為f:V → M不是等距映射,值空間中的指標梯度(f(∇_M))不與∇_V對齊。梯度之間的角度θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))衡量Goodhart失敗的嚴重性。
如果θ = 0:指標梯度和真實值梯度指向相同的方向。優化指標同時優化值。沒有Goodhart污染。
如果θ = 90°:指標梯度與真實值垂直。優化指標在M中移動而在V中卻沒有移動。
如果θ = 180°:指標梯度指向真實值的相反方向。優化指標實際上降低了值。
當指標成為目標,代理人在指標上沿用梯度上升,遵循f*(∇_M),而不是∇_V。隨著時間的推移,梯度之間的分歧角θ增大,因為代理人找到∇_M和∇_V分歧最大的區域,這些區域是遊戲最有效的路徑,因為這些區域是f變得不等距的原因。
衡量分歧
考慮一個簡單的二維值空間V = (技能,遵從),其中技能=學生的實際理解,遵從=學生的能力遵從測試過程。
測試指標M = 0.3 × 技能 + 0.7 × 遵從(一個特定的線性組合,其中遵從權重為70%)。
多目標優化作為對Goodhart防禦
漢明防禦:同時使用多個指標。幾何解釋:不是最大化單一目標函數f(x),而是優化向量目標F(x) = (f₁(x), f₂(x), ..., fₖ(x))。
對於向量目標,解概念是帕累托前沿:無法同時改善目標而不損害另一個目標的解集。帕累托前沿取代了單一最優解。
為什麼這種方法可以防止過度追求:為了遊戲指標,一個理性的代理人必須在價值空間中找到一個方向,使所有 fᵢ 同時增加(至少是他們被評判的指標)。如果指標足夠獨立——它們的梯度方向足夠不平行——就沒有這樣的方向。遊戲一個指標會降低另一個指標。
防禦程度:如果 k 個指標梯度填充 k-維空間(線性獨立),則優化任何一個子集指標會降低至少一個被排除的指標。完全帕累托防禦需要沒有改善所有指標的遊戲方向存在。
測量不變性:一個指標 M 對於無關屬性 α 不變,如果 M(x + δα) = M(x) 對於變化 δ。在測試實踐方面,IQ 指標不變:IQ 在學生練習測試而沒有在潛在構造上獲得真正進步時發生變化。
設計一個帕累托防禦的指標系統
考慮對一個研究科學家使用兩個指標系統進行評估:M₁ = 每年發表文章數,M₂ = 每篇文章的引用率(引用數/篇文章)。