Espaço de Valor vs Espaço de Medição
Modelar o mundo como dois espaços:
Espaço de Valor V: o conjunto de estados do mundo em relação ao que você realmente se importa. Pontos em V representam diferentes níveis da quantidade verdadeira subjacente (aprendizado de estudantes, progresso militar, bem-estar econômico).
Espaço de Medição M: o conjunto de valores que a métrica pode assumir. Uma métrica é uma função f: V → M — um mapeamento do espaço de valor para o espaço de medição.
Uma métrica válida é uma em que f está perto de uma isometria na região relevante: mudanças iguais em M correspondem a mudanças iguais em V. Pontos próximos em M correspondem a pontos próximos em V.
Uma métrica distorcida é uma em que f é não-isométrica: a métrica comprime algumas regiões de V (fazendo mudanças grandes invisíveis) e expande outras (fazendo mudanças pequenas parecerem grandes). A calibração de QI é uma distorção projetada: mapeia a distribuição de pontuação bruta para um Gaussiano em M, independentemente da verdadeira distribuição de inteligência em V.
Lei de Goodhart em termos de mapeamento: quando M se torna um objetivo, os agentes aplicam gradiente de ascensão em M. Porque f é uma distorção, o gradiente de ascensão em M não corresponde ao gradiente de ascensão em V. O agente se move em M sem se mover (ou se mover para trás) em V.
Testando a Validade da Métrica
Uma empresa avalia o desempenho dos funcionários em uma escala de 1 a 5 estrelas. A escala é calibrada para que 80% dos funcionários recebam 3 ou mais estrelas. O sistema de avaliação de desempenho é usado para decisões de compensação (onde a classificação em ordem importa) e planos de melhoria (onde o nível absoluto importa).
Aumento de Gradiente no Espaço Errado
Modelar o problema de otimização geometricamente. V = espaço de valor (aprendizado verdadeiro do aluno, progresso militar, etc.) e M = espaço métrico (notas de teste, contagens de corpos, etc.).
O gradiente de valor verdadeiro: ∇_V(valor) aponta na direção em V que aumenta a quantidade subjacente que você se preocupa.
O gradiente da métrica: ∇_M(métrica) aponta na direção em M que aumenta a métrica.
Porque f: V → M não é uma isometria, o gradiente da métrica no espaço de valor (f(∇_M)) não está alinhado com ∇_V. O ângulo entre eles, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mede a gravidade do fracasso de Goodhart.
Se θ = 0: o gradiente da métrica e o gradiente de valor apontam na mesma direção. Otimizar a métrica otimiza o valor. Nenhum corrupção de Goodhart.
Se θ = 90°: o gradiente da métrica é ortogonal ao valor. Otimizar a métrica move-se em M sem mover-se em V em absoluto.
Se θ = 180°: o gradiente da métrica aponta no sentido oposto ao valor. Otimizar a métrica degrada ativamente o valor.
Quando a métrica se torna um alvo e os agentes aplicam o aumento de gradiente na métrica, eles seguem f*(∇_M), não ∇_V. O ângulo de divergência θ cresce ao longo do tempo enquanto a métrica é manipulada - o mapeamento f se torna menos isométrico à medida que os agentes encontram as regiões onde ∇_M e ∇_V se divergem mais, porque são essas as trajetórias mais eficientes para a manipulação.
Medindo a Divergência
Considere um simples espaço de valor bidimensional V = (habilidade, conformidade) onde habilidade = compreensão real do aluno e conformidade = habilidade do aluno em seguir os procedimentos de teste.
Uma métrica de teste M = 0,3 × habilidade + 0,7 × conformidade (uma combinação linear específica, onde a conformidade tem 70% de peso).
Otimização Multi-Objetivo como Defesa Contra o Efeito Goodhart
Defesa de Hamming: use múltiplas métricas ao mesmo tempo. A interpretação geométrica: em vez de maximizar uma única função objetivo f(x), otimize sobre um vetor de objetivos F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Para um objetivo vetorial, o conceito de solução é a frente de Pareto: o conjunto de soluções onde nenhum objetivo pode ser melhorado sem degradar outro. A frente de Pareto substitui o único ótimo.
Por que isso defende contra Goodhart: para burlar as métricas, um agente racional deve encontrar uma direção no espaço de valor que aumenta todos os fᵢ simultaneamente (ou pelo menos as métricas pelo qual estão sendo julgados). Se as métricas forem suficientemente independentes - suas direções de gradiente forem suficientemente não-parallelizadas - não existe tal direção. Burlar uma métrica degrada outra.
O grau de defesa: se os gradientes de k métricas span o espaço k-dimensional (são linearmente independentes), então otimizar qualquer subconjunto próprio de métricas degrada pelo menos uma métrica excluída. Defesa Pareto integral requer que não exista nenhuma direção de gaming que melhore todas as métricas.
Invariância de medida: uma métrica M é invariante com relação à atributo irrelevante α se M(x + δα) = M(x) para mudanças δ em α. A métrica de QI não é invariante com relação à prática de provas: a QI muda quando os alunos praticam o teste sem ganhos genuínos na construção subjacente.
Desenhe um Sistema de Métricas Defendidas por Pareto
Considere avaliar um pesquisador em um sistema de duas métricas: M₁ = publicações por ano, M₂ = taxa de citação por artigo (citações por artigo).