English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

invité
1 / ?
retour aux leçons

Espace des Valeurs vs Espace de Mesure

Modélisez le monde en tant que deux espaces:

Espace des Valeurs V: l'ensemble des états du monde par rapport à ce dont vous vous souciez vraiment. Les points dans V représentent différents niveaux de la quantité véritable sous-jacente (apprentissage des étudiants, progrès militaire, bien-être économique).

Espace de Mesure M: l'ensemble des valeurs que la métrique peut prendre. Une métrique est une fonction f: V → M — une cartographie de l'espace des valeurs vers l'espace de mesure.

Une métrique valide est celle où f est proche d'une isométrie dans la région pertinente : des changements égaux dans M correspondent à des changements égaux dans V. Les points proches dans M correspondent à des points proches dans V.

Une métrique distordue est celle où f n'est pas isométrique : la métrique comprime certaines régions de V (ce qui rend les grands changements invisibles) et agrandit d'autres (ce qui fait paraître de petits changements importants). Le calibrage de l'IQ est une distorsion conçue : elle mappe la distribution des scores bruts à une Gaussienne dans M, peu importe la distribution réelle de l'intelligence dans V.

Loi de Goodhart en termes de cartographie : lorsque M devient un objectif, les agents effectuent une ascension en gradient dans M. Puisque f est une distorsion, l'ascension en gradient dans M ne correspond pas à une ascension en gradient dans V. L'agent se déplace dans M sans bouger (ou en reculant) dans V.

Distorsion Métrique : Espace des Valeurs vs Espace de Mesure

Test de la Validité de la Métrique

Une entreprise évalue la performance des employés sur une échelle de 1 à 5 étoiles. L'échelle est calibrée de manière à ce que 80 % des employés reçoivent 3 étoiles ou plus. Le système d'évaluation de performance est utilisé à la fois pour les décisions de rémunération (où l'ordre de classement compte) et pour les plans d'amélioration (où le niveau absolu compte).

Cette métrique est-elle plus proche d'une cartographie isométrique ou d'une cartographie distordue de la performance réelle ? Expliquez en utilisant les concepts de compression et d'expansion. Ensuite : pour quel usage (rémunération ou plans d'amélioration) la distorsion compte-t-elle plus, et pourquoi ?

Montée en gradient dans l'espace erroné

Modélisez le problème d'optimisation géométriquement. Soit V = espace de valeur (apprentissage réel des étudiants, progrès militaires, etc.) et M = espace métrique (notes d'examen, effectifs, etc.).

Le gradient de la valeur réelle : ∇_V(valeur) pointe dans la direction dans V qui augmente la quantité sous-jacente dont vous vous préoccupez.

Le gradient du métrique : ∇_M(métrique) pointe dans la direction dans M qui augmente le métrique.

Puisque f : V → M n'est pas une isométrie, le gradient du métrique dans l'espace de valeur (f(∇_M)) n'est pas aligné avec ∇_V. L'angle entre eux, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mesure la gravité de l'échec de Goodhart.

Si θ = 0 : le gradient du métrique et le gradient de la valeur pointent dans la même direction. Optimiser le métrique optimise la valeur. Aucun corrupion de Goodhart.

Si θ = 90° : le gradient du métrique est orthogonal à la valeur. Optimiser le métrique déplace dans M sans bouger dans V du tout.

Si θ = 180° : le gradient du métrique pointe dans le sens opposé à la valeur.

Lorsque le métrique devient un objectif et les agents appliquent une montée en gradient sur le métrique, ils suivent f*(∇_M), pas ∇_V. L'angle de divergence θ augmente sur le temps lorsque le métrique est manipulé - la correspondance f devient moins isométrique au fil du temps que les agents trouvent les régions où ∇_M et ∇_V divergent le plus, car ce sont les itinéraires les plus efficaces pour la manipulation.

Mesurer la divergence

Considérez un espace de valeurs bidimensionnel simple V = (compétence, conformité) où la compétence représente la compréhension réelle de l'étudiant et la conformité représente la capacité de l'étudiant à suivre les procédures d'évaluation.

Un métrique de test M = 0.3 × compétence + 0.7 × conformité (une combinaison linéaire spécifique, où la conformité a 70% de poids).

Dans ce modèle bidimensionnel, le gradient du métrique est le vecteur (0.3, 0.7) dans l'espace (compétence, conformité). Un étudiant optimise le métrique en améliorant uniquement la conformité (en se déplaçant dans la direction (0, 1) dans l'espace des valeurs). Calculez le cosinus de l'angle entre le gradient du métrique et la direction pure-compétence (1, 0). Expliquez : le gradient du métrique est-il bien aligné avec 'augmentation de la compétence' (θ petit) ou mal aligné (θ grand) ? Quelle est la prédiction sur ce qui se passe lorsque les étudiants optimisent ce métrique ?

Optimisation multi-objectif en tant que défense contre le phénomène de Goodhart

Défense de Hamming : utiliser plusieurs métriques simultanément. L'interprétation géométrique : au lieu de maximiser une seule fonction objectif f(x), optimisez un vecteur d'objectifs F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Pour un objectif vectoriel, le concept de solution est l'avant-garde de Pareto : l'ensemble des solutions où aucun objectif ne peut être amélioré sans détériorer un autre. L'avant-garde de Pareto remplace l'optimum unique.

Pourquoi cela protège contre Goodhart : pour manipuler les indicateurs, un agent rationnel doit trouver une direction dans l'espace des valeurs qui augmente tous les fᵢ simultanément (ou au moins les indicateurs sur lesquels ils sont évalués). Si les indicateurs sont suffisamment indépendants - leurs directions de gradient sont suffisamment non parallèles - il n'existe pas de telle direction. Manipuler un indicateur dégrade un autre.

Le degré de défense : si les gradients des k indicateurs espacent l'espace à k dimensions (sont linéairement indépendants), alors optimiser tout sous-ensemble des indicateurs dégrade au moins un indicateur exclu. Une défense Pareto complète nécessite qu'il n'existe pas de direction de manipulation qui améliore tous les indicateurs.

Invariance des mesures : un indicateur M est invariant par rapport à une caractéristique irrélevante α si M(x + δα) = M(x) pour des changements δ en α. Le quotient d'intelligence (IQ) n'est pas invariant par rapport à la pratique des tests : l'IQ change lorsque les étudiants s'entraînent au test sans acquérir de véritables gains dans la construction sous-jacente.

Concevez un système d'indicateurs défendus selon Pareto

Considérez l'évaluation d'un chercheur sur un système à deux indicateurs : M₁ = publications par an, M₂ = taux de citation par article (citations par article).

Expliquez géométriquement pourquoi ces deux indicateurs ensemble sont plus difficiles à manipuler que chaque indicateur seul. Spécifiquement : décrivez une stratégie pour maximiser M₁ seul, une stratégie pour maximiser M₂ seul, puis montrez que chaque stratégie dégrade l'autre indicateur. Ensuite : existe-t-il une stratégie de manipulation résiduelle qui augmente simultanément les deux sans produire de valeur réelle de recherche, et si oui, quel est-elle ?