English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

访客
1 / ?
返回课程列表

值空间与测量空间

将世界模型为两个空间:

值空间 V: 与你真正关心的世界状态有关的点集。V 中的点代表真实潜在数量的不同级别(学生学习、军事进展、经济福祉)。

测量空间 M: 指度量可以采取的值集。度量是一个函数 f: V → M —— 从值空间映射到测量空间。

一个 有效度量 是指 f 接近于同质变换在相关区域:M 中的等变化对应于 V 中的等变化。M 中的邻近点对应于 V 中的邻近点。

一个 扭曲度量 是指 f 不是同质变换:度量在 V 中的某些区域进行压缩(使大变化看不见)并在其他区域进行扩张(使小变化看起来很大)。IQ 调整是一个设计的扭曲:它将原始分数分布映射到一个 Gaussian 在 M,无论 V 中的智力真实分布是什么。

Goodhart 法则在映射术语中:当 M 成为一个目标时,代理人在 M 上进行梯度上升。因为 f 是一个扭曲,M 上的梯度上升不对应于 V 上的梯度上升。代理人在 M 上移动,而在 V 上没有移动(或后退)。

度量扭曲:值空间与测量空间

测试度量有效性

一家公司根据 1-5 星评分系统评估员工表现。这个评分系统用于两种用例:用于决定补偿(排名顺序很重要)和制定改进计划(绝对水平很重要)。

这个度量更接近于同质映射还是扭曲映射的真实性能?使用压缩和扩张的概念来解释。然后:对于哪个用例(补偿或改进计划)扭曲更重要,并且为什么?

梯度上升在错误的空间中

从几何上来看,优化问题模型。让 V = 真实值空间(学生学习,军事进展等)和 M = 指标空间(测试成绩,伤亡等)。

真实值的梯度: ∇_V(value) 在 V 中指向您关心的潜在数量增加的方向。

指标的梯度: ∇_M(metric) 在 M 中指向增加指标的方向。

因为 f: V → M 不是等距映射,在值空间中指标的梯度 (f(∇_M)) 不与 ∇_V 对齐。它们之间的角度 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)) 表示 Goodhart 失效的严重程度。

如果 θ = 0: 指标梯度和真实值梯度指向相同的方向。优化指标优化值。没有 Goodhart 腐败。

如果 θ = 90°: 指标梯度与真实值垂直。优化指标在 M 中移动而在 V 中却没有移动。

如果 θ = 180°: 指标梯度与真实值相反。优化指标实际上会降低值。

当指标成为目标,代理应用梯度上升指标时,他们沿着 f*(∇_M) 而不是 ∇_V 前进。随着时间的推移,指标梯度与真实值梯度之间的分歧角度 θ 增大,因为代理们发现了映射 f 中 ∇_M 和 ∇_V 分歧最严重的区域,因为那些是游戏最有效的路径。

测量分歧

考虑一个简单的二维值空间V = (技能, 适应性),其中技能=学生的实际理解,适应性=学生遵循考试手段的能力。

一个测试指标M = 0.3 × 技能 + 0.7 × 适应性(一个特定的线性组合,其中适应性权重为70%)。

在这个2D模型中,指标的梯度是(0.3, 0.7)在(技能, 适应性)空间。学生通过提高适应性来优化指标(在值空间中沿(0, 1)方向移动)。计算指标梯度与纯技能方向(1, 0)之间的余弦值。解释:指标梯度与“技能提高”(θ小)是否良好对齐,或者对齐较差(θ大)?这预测什么时候学生优化这个指标会发生什么?

多目标优化作为防御Goodhart现象

汉明防御:同时使用多个指标。几何解释:不是最大化单个目标函数f(x),而是针对向量目标优化F(x) = (f₁(x), f₂(x), ..., fₖ(x))。

对于向量目标,解决方案概念是帕累托边界:在没有一个目标可以不降低另一个目标的情况下改善的解决方案集。帕累托边界代替了单一最优解。

为什么这防御了 Goodhart 现象:为了诈骗指标,一個理性的代理必须在价值空间中找到一个方向,使所有 fᵢ 同时增加(至少是他们被评估的指标)。如果指标足够独立——它们的梯度方向足够不平行——那么这样的方向不存在。诈骗一个指标会降低另一个指标。

防御程度:如果 k 个指标的梯度在 k 维空间中线性无关,那么优化任何一个子集的指标都会降低至少一个排除的指标。完全帕累托防御要求不存在改善所有指标的诈骗方向。

测量不变性:一个指标 M 对于无关属性 α 是不变的,如果 M(x + δα) = M(x) 对于变化 δ。在测验实践方面,IQ 指标不稳定:IQ 会随着学生练习测验而改变,但没有真正提高基础构造。

设计一个帕累托防卫的指标系统

考虑评估一个研究科学家在一个双指标系统中:M₁ = 每年发表论文数,M₂ = 每篇论文的引用率(引用次数每篇论文)。

几何上解释为什么这两个指标一起比单个指标更难诈骗。具体来说:描述单独最大化 M₁ 的策略,单独最大化 M₂ 的策略,然后证明这两个策略都会降低另一个指标。然后:是否存在任何剩余的诈骗策略,可以同时增加这两个指标而不产生真正的研究价值,如果有,那么是什么?