English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

게스트
1 / ?
수업 목록으로

가치 공간 vs 측정 공간

세상을 모델링하려면 두 공간이 있습니다:

가치 공간 V: 실제로 관심이 있는 세계의 상태 집합. V의 점은 실제로 숨겨진 양의 다른 수준을 나타냅니다 (학생 학습, 군사 진보, 경제적 웰빙).

측정 공간 M: 지표가 취할 수 있는 값의 집합. 지표는 가치 공간에서 측정 공간으로의 함수 f: V → M입니다 - 값 공간을 측정 공간으로 매핑하는 것입니다.

유효한 지표는 f가 관련 영역에서 근사 이소메트리를 유지해야 합니다: M의 동등한 변화가 V의 동등한 변화에 해당합니다. M의 근처 점은 V의 근처 점에 해당합니다.

왜곡된 지표는 f가 비이소메트릭입니다: 지표는 V의 일부 영역을 압축하여 큰 변화가 가려지게 만듭니다 (작은 변화가 큰 것으로 보이게 함). IQ 기준화는 실제 분포를 가우시안으로 매핑하는 설계 왜곡입니다.

Goodhart 법칙은 매핑 용어에서: M이 목표가 되면, 에이전트는 M에서 기울기 상승을 적용합니다. 그러나 f가 왜곡이므로 M에서 기울기 상승은 V에서 기울기 상승과 일치하지 않습니다. 에이전트는 M에서 움직임으로써 V에서 움직임을 할 수도 없거나 뒤로 움직임.

가치 공간 vs 측정 공간: 지표 왜곡

지표 유효성 검사

회사에서는 직원 성과를 1-5성 별로 평가합니다. 성적은 80%의 직원이 3 또는 그 이상을 받도록 기준화되었습니다. 성과 평가 시스템은 보상 결정 (순위 지정이 중요) 및 개선 계획 (절대 수준이 중요) 모두에 사용됩니다.

이 지표는 이소메트릭 매핑에 더 가까운가요 아니면 왜곡된 매핑에 가까운가요? 압축과 확장 개념을 사용하여 설명하십시오. 그런 다음 왜곡이 더 중요한 사용 사례 (보상 결정 또는 개선 계획)가 어떤 것인지와 왜 그런지 설명하십시오.

Gradient Ascent in the Wrong Space

최적화 문제를 기하학적으로 모델링하세요. V = 진정한 가치 공간(학생 학습, 군사 진보 등)이고 M = 지표 공간(시험 점수, 사상자 등)입니다.

진정한 가치의 기울기: ∇_V(value)는 V 내에서 진정한 관심사에 대해 증가시키는 방향을 가리킵니다.

지표의 기울기: ∇_M(metric)는 M 내에서 지표를 증가시키는 방향을 가리킵니다.

f: V → M가 동일한 대칭이 아니기 때문에, 가치 공간 내에서 지표의 기울기(f(∇_M))는 ∇_V와 일치하지 않습니다. 그들은 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))로 측정되는 Goodhart 실패의 심각성을 나타내는 각도를 가집니다.

θ = 0: 지표 기울기와 가치 기울기가 같은 방향을 가리킵니다. 지표 최적화가 가치를 최적화합니다. Goodhart 오염이 없습니다.

θ = 90°: 지표 기울기가 가치에 수직입니다. 지표를 최적화하면 M에서 움직임은 V에 움직임이 전혀 없습니다.

θ = 180°: 지표 기울기가 가치에 반대 방향을 가리킵니다. 지표를 최적화하면 가치를 악화시킵니다.

지표가 목표가 되고 에이전트가 지표에 기울기 상승을 적용할 때, 그들은 f*(∇_M)을 따라갑니다. ∇_V를 따라가지 않습니다. 분기 각도 θ는 시간이 지남에 따라 지표를 게임하기 위해 ∇_M과 ∇_V가 분기하는 영역을 찾는 에이전트가 많아짐에 따라 증가합니다. f는 가장 효율적인 게임 경로를 찾는 것이기 때문입니다.

분기 각도를 측정합니다

간단한 두차원 값 공간 V = (기술, 준수)에서 기술 = 학생의 실제 이해력, 준수 = 학생의 시험 수행 절차를 따라할 수 있는 능력입니다.

테스트 지표 M = 0.3 × 기술 + 0.7 × 준수(특정 선형 조합, 준수가 70% 가중치).

이 2차원 모델에서 지표의 기울기는 (기술, 준수) 공간에서 (0.3, 0.7) 벡터입니다. 학생은 준수의 향상만으로 지표를 최적화합니다(값 공간에서 (0, 1) 방향으로 이동). 지표 기울기와 순수 기술 방향(1, 0) 사이의 코사인 계산하고, 지표 기울기가 '기술 향상'(θ 작음)과 잘 일치하거나(θ 큼) 그렇지 않음을 설명하십시오. 이를 바탕으로 학생들이 이 지표를 최적화할 때 일어날 것으로 예상되는 변화는 무엇인가요?

다목적 최적화는 좋은하트 방어에 대비하는 방법

해밍 방어: 동시에 여러 지표를 사용합니다. 기하학적 해석: 단일 목표 함수 f(x)를 최대화하는 대신 벡터 목표 F(x) = (f₁(x), f₂(x), ..., fₖ(x))를 최적화합니다.

벡터 목표의 경우, Pareto frontier(파레토 프런티어)라는 해결책이 있습니다. 파레토 프런티어는 다른 하나를 손상시키지 않고 목표를 개선할 수 없는 해결책들의 집합입니다. 파레토 프런티어는 단일 최적값을 대체합니다.

이유는 이가 Goodhart 대응에 도움이 되는 것: 게임을 하려면 합리적 에이전트는 모든 fᵢ를 동시에 증가시키거나 적어도 평가받는 메트릭들에 대해 증가시키는 가치 공간의 방향을 찾아야 한다. 만약 메트릭들이 충분히 독립적이라면 — 그 그라디언트 방향들이 충분히 비평평하다면 — 그런 방향이 없다. 한 메트릭을 게임하면 다른 것에 손상이 된다.

대응 정도: 만약 k개의 메트릭 그라디언트들이 k차원 공간을 채우고 있다면 (선형 독립적이라면) 어떤 적절한 부분 집합의 메트릭을 최적화하면 적어도 한 개의 배제된 메트릭이 손상된다. 완전한 파레토 대응은 모든 메트릭을 개선하는 게임 방향이 존재하지 않아야 한다.

측정 불변성: 메트릭 M이 무관한 특성 α와 대하여 측정 불변이라면, M(x + δα) = M(x)이다. IQ 메트릭은 시험 응용 연습에 대하여 불변하지 않다: IQ는 시험을 연습하는 학생들에 대하여 변화한다. 그러나 실제 가치 생성에 진정한 증거가 없는 경우.

파레토 방어된 메트릭 시스템 설계

연구 과학자에게 연간 출판물 수(M₁)와 논문 당 인용률(M₂, 인용수 당 논문)을 두 메트릭 시스템으로 평가하라.

이 두 메트릭이 각각의 메트릭보다 게임하기 어렵다는 것을 기하학적으로 설명하라. 구체적으로: M₁을 최대로 만드는 전략을 고려하라, M₂을 최대로 만드는 전략을 고려하라, 그리고 그 전략들이 서로 다른 메트릭을 손상시킨다는 것을 보여라. 그런 다음: 양쪽 모두를 동시에 증가시키는 진정한 연구 가치 없이 게임 전략이 남아있는지 여부와, 그렇다면 그것이 무엇인지 설명하라.