가치 공간 vs 측정 공간
세상을 모델링하려면 두 공간이 있습니다:
가치 공간 V: 실제로 관심이 있는 세계의 상태 집합. V의 점은 실제로 숨겨진 양의 다른 수준을 나타냅니다 (학생 학습, 군사 진보, 경제적 웰빙).
측정 공간 M: 지표가 취할 수 있는 값의 집합. 지표는 가치 공간에서 측정 공간으로의 함수 f: V → M입니다 - 값 공간을 측정 공간으로 매핑하는 것입니다.
유효한 지표는 f가 관련 영역에서 근사 이소메트리를 유지해야 합니다: M의 동등한 변화가 V의 동등한 변화에 해당합니다. M의 근처 점은 V의 근처 점에 해당합니다.
왜곡된 지표는 f가 비이소메트릭입니다: 지표는 V의 일부 영역을 압축하여 큰 변화가 가려지게 만듭니다 (작은 변화가 큰 것으로 보이게 함). IQ 기준화는 실제 분포를 가우시안으로 매핑하는 설계 왜곡입니다.
Goodhart 법칙은 매핑 용어에서: M이 목표가 되면, 에이전트는 M에서 기울기 상승을 적용합니다. 그러나 f가 왜곡이므로 M에서 기울기 상승은 V에서 기울기 상승과 일치하지 않습니다. 에이전트는 M에서 움직임으로써 V에서 움직임을 할 수도 없거나 뒤로 움직임.
지표 유효성 검사
회사에서는 직원 성과를 1-5성 별로 평가합니다. 성적은 80%의 직원이 3 또는 그 이상을 받도록 기준화되었습니다. 성과 평가 시스템은 보상 결정 (순위 지정이 중요) 및 개선 계획 (절대 수준이 중요) 모두에 사용됩니다.
Gradient Ascent in the Wrong Space
최적화 문제를 기하학적으로 모델링하세요. V = 진정한 가치 공간(학생 학습, 군사 진보 등)이고 M = 지표 공간(시험 점수, 사상자 등)입니다.
진정한 가치의 기울기: ∇_V(value)는 V 내에서 진정한 관심사에 대해 증가시키는 방향을 가리킵니다.
지표의 기울기: ∇_M(metric)는 M 내에서 지표를 증가시키는 방향을 가리킵니다.
f: V → M가 동일한 대칭이 아니기 때문에, 가치 공간 내에서 지표의 기울기(f(∇_M))는 ∇_V와 일치하지 않습니다. 그들은 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))로 측정되는 Goodhart 실패의 심각성을 나타내는 각도를 가집니다.
θ = 0: 지표 기울기와 가치 기울기가 같은 방향을 가리킵니다. 지표 최적화가 가치를 최적화합니다. Goodhart 오염이 없습니다.
θ = 90°: 지표 기울기가 가치에 수직입니다. 지표를 최적화하면 M에서 움직임은 V에 움직임이 전혀 없습니다.
θ = 180°: 지표 기울기가 가치에 반대 방향을 가리킵니다. 지표를 최적화하면 가치를 악화시킵니다.
지표가 목표가 되고 에이전트가 지표에 기울기 상승을 적용할 때, 그들은 f*(∇_M)을 따라갑니다. ∇_V를 따라가지 않습니다. 분기 각도 θ는 시간이 지남에 따라 지표를 게임하기 위해 ∇_M과 ∇_V가 분기하는 영역을 찾는 에이전트가 많아짐에 따라 증가합니다. f는 가장 효율적인 게임 경로를 찾는 것이기 때문입니다.
분기 각도를 측정합니다
간단한 두차원 값 공간 V = (기술, 준수)에서 기술 = 학생의 실제 이해력, 준수 = 학생의 시험 수행 절차를 따라할 수 있는 능력입니다.
테스트 지표 M = 0.3 × 기술 + 0.7 × 준수(특정 선형 조합, 준수가 70% 가중치).
다목적 최적화는 좋은하트 방어에 대비하는 방법
해밍 방어: 동시에 여러 지표를 사용합니다. 기하학적 해석: 단일 목표 함수 f(x)를 최대화하는 대신 벡터 목표 F(x) = (f₁(x), f₂(x), ..., fₖ(x))를 최적화합니다.
벡터 목표의 경우, Pareto frontier(파레토 프런티어)라는 해결책이 있습니다. 파레토 프런티어는 다른 하나를 손상시키지 않고 목표를 개선할 수 없는 해결책들의 집합입니다. 파레토 프런티어는 단일 최적값을 대체합니다.
이유는 이가 Goodhart 대응에 도움이 되는 것: 게임을 하려면 합리적 에이전트는 모든 fᵢ를 동시에 증가시키거나 적어도 평가받는 메트릭들에 대해 증가시키는 가치 공간의 방향을 찾아야 한다. 만약 메트릭들이 충분히 독립적이라면 — 그 그라디언트 방향들이 충분히 비평평하다면 — 그런 방향이 없다. 한 메트릭을 게임하면 다른 것에 손상이 된다.
대응 정도: 만약 k개의 메트릭 그라디언트들이 k차원 공간을 채우고 있다면 (선형 독립적이라면) 어떤 적절한 부분 집합의 메트릭을 최적화하면 적어도 한 개의 배제된 메트릭이 손상된다. 완전한 파레토 대응은 모든 메트릭을 개선하는 게임 방향이 존재하지 않아야 한다.
측정 불변성: 메트릭 M이 무관한 특성 α와 대하여 측정 불변이라면, M(x + δα) = M(x)이다. IQ 메트릭은 시험 응용 연습에 대하여 불변하지 않다: IQ는 시험을 연습하는 학생들에 대하여 변화한다. 그러나 실제 가치 생성에 진정한 증거가 없는 경우.
파레토 방어된 메트릭 시스템 설계
연구 과학자에게 연간 출판물 수(M₁)와 논문 당 인용률(M₂, 인용수 당 논문)을 두 메트릭 시스템으로 평가하라.