值空间与测量空间
将世界模型为两个空间:
值空间 V: 与你真正关心的世界状态有关的点集。V 中的点代表真实潜在数量的不同级别(学生学习、军事进展、经济福祉)。
测量空间 M: 指度量可以采取的值集。度量是一个函数 f: V → M —— 从值空间映射到测量空间。
一个 有效度量 是指 f 接近于同质变换在相关区域:M 中的等变化对应于 V 中的等变化。M 中的邻近点对应于 V 中的邻近点。
一个 扭曲度量 是指 f 不是同质变换:度量在 V 中的某些区域进行压缩(使大变化看不见)并在其他区域进行扩张(使小变化看起来很大)。IQ 调整是一个设计的扭曲:它将原始分数分布映射到一个 Gaussian 在 M,无论 V 中的智力真实分布是什么。
Goodhart 法则在映射术语中:当 M 成为一个目标时,代理人在 M 上进行梯度上升。因为 f 是一个扭曲,M 上的梯度上升不对应于 V 上的梯度上升。代理人在 M 上移动,而在 V 上没有移动(或后退)。
测试度量有效性
一家公司根据 1-5 星评分系统评估员工表现。这个评分系统用于两种用例:用于决定补偿(排名顺序很重要)和制定改进计划(绝对水平很重要)。
梯度上升在错误的空间中
从几何上来看,优化问题模型。让 V = 真实值空间(学生学习,军事进展等)和 M = 指标空间(测试成绩,伤亡等)。
真实值的梯度: ∇_V(value) 在 V 中指向您关心的潜在数量增加的方向。
指标的梯度: ∇_M(metric) 在 M 中指向增加指标的方向。
因为 f: V → M 不是等距映射,在值空间中指标的梯度 (f(∇_M)) 不与 ∇_V 对齐。它们之间的角度 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)) 表示 Goodhart 失效的严重程度。
如果 θ = 0: 指标梯度和真实值梯度指向相同的方向。优化指标优化值。没有 Goodhart 腐败。
如果 θ = 90°: 指标梯度与真实值垂直。优化指标在 M 中移动而在 V 中却没有移动。
如果 θ = 180°: 指标梯度与真实值相反。优化指标实际上会降低值。
当指标成为目标,代理应用梯度上升指标时,他们沿着 f*(∇_M) 而不是 ∇_V 前进。随着时间的推移,指标梯度与真实值梯度之间的分歧角度 θ 增大,因为代理们发现了映射 f 中 ∇_M 和 ∇_V 分歧最严重的区域,因为那些是游戏最有效的路径。
测量分歧
考虑一个简单的二维值空间V = (技能, 适应性),其中技能=学生的实际理解,适应性=学生遵循考试手段的能力。
一个测试指标M = 0.3 × 技能 + 0.7 × 适应性(一个特定的线性组合,其中适应性权重为70%)。
多目标优化作为防御Goodhart现象
汉明防御:同时使用多个指标。几何解释:不是最大化单个目标函数f(x),而是针对向量目标优化F(x) = (f₁(x), f₂(x), ..., fₖ(x))。
对于向量目标,解决方案概念是帕累托边界:在没有一个目标可以不降低另一个目标的情况下改善的解决方案集。帕累托边界代替了单一最优解。
为什么这防御了 Goodhart 现象:为了诈骗指标,一個理性的代理必须在价值空间中找到一个方向,使所有 fᵢ 同时增加(至少是他们被评估的指标)。如果指标足够独立——它们的梯度方向足够不平行——那么这样的方向不存在。诈骗一个指标会降低另一个指标。
防御程度:如果 k 个指标的梯度在 k 维空间中线性无关,那么优化任何一个子集的指标都会降低至少一个排除的指标。完全帕累托防御要求不存在改善所有指标的诈骗方向。
测量不变性:一个指标 M 对于无关属性 α 是不变的,如果 M(x + δα) = M(x) 对于变化 δ。在测验实践方面,IQ 指标不稳定:IQ 会随着学生练习测验而改变,但没有真正提高基础构造。
设计一个帕累托防卫的指标系统
考虑评估一个研究科学家在一个双指标系统中:M₁ = 每年发表论文数,M₂ = 每篇论文的引用率(引用次数每篇论文)。