English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

invitado
1 / ?

Espacio de Valores vs Espacio de Mediciones

Modela el mundo como dos espacios:

Espacio de Valores V: el conjunto de estados del mundo con respecto a lo que realmente te importa. Puntos en V representan diferentes niveles de la cantidad subyacente verdadera (aprendizaje de estudiantes, progreso militar, bienestar económico).

Espacio de Mediciones M: el conjunto de valores que la métrica puede tomar. Una métrica es una función f: V → M — un mapeo del espacio de valores al espacio de mediciones.

Una métrica válida es una en la que f está cerca de una isometría en la región relevante: cambios iguales en M corresponden a cambios iguales en V. Puntos cercanos en M corresponden a puntos cercanos en V.

Una métrica distorsionada es una en la que f no es isométrica: la métrica comprime algunas regiones de V (haciendo cambios grandes invisibles) y expande otras (haciendo cambios pequeños aparecer grandes). La calibración de IQ es una distorsión diseñada: mapea la distribución de puntuaciones brutas a una Gaussiana en M, independientemente de la verdadera distribución de inteligencia en V.

Ley de Goodhart en términos de mapeo: cuando M se convierte en un objetivo, los agentes aplican ascenso del gradiente en M. Porque f es una distorsión, el ascenso del gradiente en M no corresponde al ascenso del gradiente en V. El agente se mueve en M sin moverse (o retroceder) en V.

Distorsión Métrica: Espacio de Valores vs Espacio de Mediciones

Prueba de la Valididad de la Métrica

Una empresa evalúa el desempeño de empleados en una escala de 1 a 5 estrellas. La escala está calibrada de manera que el 80% de los empleados reciba 3 o más estrellas. El sistema de revisión de desempeño se utiliza tanto para decisiones de compensación (donde importa la ordenación) como para planes de mejora (donde importa el nivel absoluto).

¿Es esta métrica más cercana a un mapeo isométrico o a un mapeo distorsionado de desempeño verdadero? Explica usando los conceptos de compresión y expansión. Luego: para qué uso (compensaciones o planes de mejora) importa más la distorsión y por qué?

Ascenso de Gradiente en el Espacio Erróneo

Modela el problema de optimización geométricamente. Dé V = espacio de valor (aprendizaje estudiantil verdadero, progreso militar, etc.) y M = espacio métrico (puntuaciones de examen, conteos de cuerpos, etc.).

El gradiente de verdadero valor: ∇_V(valor) apunta en la dirección en V que aumenta la cantidad subyacente en la que te importa.

El gradiente de la métrica: ∇_M(métrica) apunta en la dirección en M que aumenta la métrica.

Porque f: V → M no es una isometría, el gradiente de la métrica en el espacio de valor (f(∇_M)) no está alineado con ∇_V. El ángulo entre ellos, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mide la gravedad del fracaso de Goodhart.

Si θ = 0: el gradiente de la métrica y el gradiente de valor apuntan en la misma dirección. Optimizar la métrica optimiza el valor. Sin corrupción de Goodhart.

Si θ = 90°: el gradiente de la métrica es ortogonal al valor. Optimizar la métrica mueve en M sin moverse en V en absoluto.

Si θ = 180°: el gradiente de la métrica apunta en dirección opuesta al valor. Optimizar la métrica degrada activamente el valor.

Cuando la métrica se convierte en un objetivo y los agentes aplican ascenso de gradiente en la métrica, siguen a f*(∇_M), no a ∇_V. El ángulo de divergencia θ crece con el tiempo a medida que la métrica se manipula — la asignación f se vuelve menos isométrica a medida que los agentes encuentran las regiones donde ∇_M y ∇_V divergen más, porque esas son las rutas más eficientes para manipular.

Medición de la Divergencia

Considere un espacio de valor bidimensional simple V = (habilidad, cumplimiento) donde habilidad = comprensión real del estudiante y cumplimiento = habilidad del estudiante para seguir los procedimientos de prueba.

Una métrica de prueba M = 0.3 × habilidad + 0.7 × cumplimiento (una combinación lineal específica, donde el cumplimiento tiene un peso del 70%).

En este modelo bidimensional, el gradiente de la métrica es el vector (0.3, 0.7) en el espacio (habilidad, cumplimiento). Un estudiante optimiza la métrica mejorando solo el cumplimiento (moviéndose en la dirección (0, 1) en el espacio de valores). Calcule el coseno del ángulo entre el gradiente de la métrica y la dirección pura de habilidad (1, 0). Explique: ¿está bien alineado el gradiente de la métrica con 'aumentar habilidades' (θ pequeño) o mal alineado (θ grande)? ¿Qué predice esto sobre lo que sucede cuando los estudiantes optimizan por esta métrica?

Optimización multiobjetivo como defensa contra Goodhart

Defensa de Hamming: use múltiples métricas simultáneamente. La interpretación geométrica: en lugar de maximizar una función objetivo única f(x), optimiza sobre un vector de objetivos F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Para un objetivo vectorial, el concepto de solución es la frontera de Pareto: el conjunto de soluciones donde ningún objetivo se puede mejorar sin degradar otro. La frontera de Pareto reemplaza el único óptimo.

Por qué esto defiende contra Goodhart: para manipular las métricas, un agente racional debe encontrar una dirección en el espacio de valor que aumenta todos los fᵢ simultáneamente (o al menos las métricas por las que se juzga). Si las métricas son lo suficientemente independientes - sus direcciones de gradiente son lo suficientemente no paralelas - no existe tal dirección. Manipular una métrica degrada otra.

El grado de defensa: si los gradientes de las k métricas cubren el espacio k-dimensional (son independientes linealmente), entonces optimizar cualquier subconjunto adecuado de métricas degrada al menos una métrica excluida. Defensa Pareto completa requiere que no exista ninguna dirección de juego que mejore todas las métricas.

Invariancia de medida: una métrica M es invariante con respecto a la atributo irrelevante α si M(x + δα) = M(x) para cambios δ en α. La métrica de IQ no es invariante con respecto a la práctica de exámenes: el IQ cambia cuando los estudiantes practican el examen sin ganar verdaderamente en la construcción subyacente.

Diseñe un sistema de métricas defendidas por Pareto

Considere evaluar a un científico de la investigación en un sistema de dos métricas: M₁ = publicaciones por año, M₂ = tasa de citas por artículo (citas por artículo).

Explica geométricamente por qué estas dos métricas juntas son más difíciles de manipular que cada métrica por separado. Específicamente: describe una estrategia para maximizar M₁ solo, una estrategia para maximizar M₂ solo, y luego demuestra que cada una de esas estrategias degrada la otra métrica. Luego: ¿existe alguna estrategia residual de manipulación que aumente ambas simultáneamente sin producir un valor de investigación genuino, y si es así, ¿cuál es?