English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

值空間 vs 測量空間

將世界模型為兩個空間:

值空間 V: 根據你真正關心的方面,世界的各個狀態組成的集合。 V 中的點代表對真實底層量的不同層級(學生學習、軍事進展、經濟福祉)。

測量空間 M: 指標可以採取的值的集合。一個指標是一個函數 f: V → M —— 從值空間映射到測量空間。

一個 有效的指標 是指 f 將近似於同胚在相關區域:M 中的相等變化對應於 V 中的相等變化。M 中的鄰近點對應於 V 中的鄰近點。

一個 扭曲的指標 是指 f 是非同胚的:指標將 V 中的某些區域壓縮(使大變化看不見)並擴展其他區域(使小變化看起來很大)。IQ 調節是一個設計的扭曲:它將原始分數分布映射到 M 中的高斯分布,不管 V 中智力的真實分布。

Goodhart 法則在映射術語中:當 M 成為一個目標時,代理人在 M 上進行梯度上升。因為 f 是一個扭曲,梯度在 M 上的上升不對應於 V 上的梯度上升。代理人在 M 中移動,而在 V 中沒有移動(或後退)。

Metric Distortion: Value Space vs Measurement Space

測試指標有效性

一家公司根據 1-5 星尺度評估員工表現。這個尺度是調節的,以便 80% 的員工獲得 3 或更高的分數。性能評審系統用於兩個用途:一是薪酬決策(其中排名順序很重要);二是改進計劃(其中絕對水平很重要)。

這個指標更接近於一個同胚映射還是扭曲映射的真實表現?使用壓縮和擴展的概念解釋。然後:在哪個用例(補償計劃或改進計劃)中,扭曲對於更重要,為什麼?

梯度上升在錯誤空間

從幾何學的角度來模型化優化問題。讓V = 真實值空間(學生學習、軍事進展等)和M = 指標空間(測試分數、人數等)。

真實值的梯度:∇_V(value)在V中指向您關心的底層量增加的方向。

指標的梯度:∇_M(metric)在M中指向增加指標的方向。

因為f:V → M不是等距映射,值空間中的指標梯度(f(∇_M))不與∇_V對齊。梯度之間的角度θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))衡量Goodhart失敗的嚴重性。

如果θ = 0:指標梯度和真實值梯度指向相同的方向。優化指標同時優化值。沒有Goodhart污染。

如果θ = 90°:指標梯度與真實值垂直。優化指標在M中移動而在V中卻沒有移動。

如果θ = 180°:指標梯度指向真實值的相反方向。優化指標實際上降低了值。

當指標成為目標,代理人在指標上沿用梯度上升,遵循f*(∇_M),而不是∇_V。隨著時間的推移,梯度之間的分歧角θ增大,因為代理人找到∇_M和∇_V分歧最大的區域,這些區域是遊戲最有效的路徑,因為這些區域是f變得不等距的原因。

衡量分歧

考慮一個簡單的二維值空間V = (技能,遵從),其中技能=學生的實際理解,遵從=學生的能力遵從測試過程。

測試指標M = 0.3 × 技能 + 0.7 × 遵從(一個特定的線性組合,其中遵從權重為70%)。

在這個2D模型中,指標的梯度是(0.3, 0.7)在(技能,遵從)空間。學生通過提高遵從(在值空間的(0, 1)方向移動)來優化指標。計算指標梯度與純技能方向(1, 0)之間的餘弦角度。解釋:指標梯度是否與「提高技能」保持良好對齊(θ小)或不良對齊(θ大)?這預示了當學生優化這個指標時會發生什麼情況?

多目標優化作為對Goodhart防禦

漢明防禦:同時使用多個指標。幾何解釋:不是最大化單一目標函數f(x),而是優化向量目標F(x) = (f₁(x), f₂(x), ..., fₖ(x))。

對於向量目標,解概念是帕累托前沿:無法同時改善目標而不損害另一個目標的解集。帕累托前沿取代了單一最優解。

為什麼這種方法可以防止過度追求:為了遊戲指標,一個理性的代理人必須在價值空間中找到一個方向,使所有 fᵢ 同時增加(至少是他們被評判的指標)。如果指標足夠獨立——它們的梯度方向足夠不平行——就沒有這樣的方向。遊戲一個指標會降低另一個指標。

防禦程度:如果 k 個指標梯度填充 k-維空間(線性獨立),則優化任何一個子集指標會降低至少一個被排除的指標。完全帕累托防禦需要沒有改善所有指標的遊戲方向存在。

測量不變性:一個指標 M 對於無關屬性 α 不變,如果 M(x + δα) = M(x) 對於變化 δ。在測試實踐方面,IQ 指標不變:IQ 在學生練習測試而沒有在潛在構造上獲得真正進步時發生變化。

設計一個帕累托防禦的指標系統

考慮對一個研究科學家使用兩個指標系統進行評估:M₁ = 每年發表文章數,M₂ = 每篇文章的引用率(引用數/篇文章)。

幾何上解釋為什麼這兩個指標一起比單獨使用任何一個指標更難遊戲。具體來說:描述單獨最大化 M₁ 的策略,單獨最大化 M₂ 的策略,然后證明這些策略中的每一個都會降低另一個指標。然後:是否存在任何剩余遊戲策略,該策略同時增加兩個指標而不產生真正的研究價值,如果有,什麼是它?