un — Hamming Ch 29 : Vous obtenez ce que vous mesurez

un

invité

1 / ?

retour aux leçons

Comment le QI obtient sa distribution normale

Hamming ouvre le chapitre 29 avec une dissection minutieuse des tests de QI.

L'affirmation : l'intelligence suit une distribution normale dans la population. Mesure : tracer les scores sur une échelle de probabilité cumulative (papier de probabilité). Les scores tombent sur une ligne droite : indiquant une distribution normale.

Le problème identifié par Hamming : ce n'est pas une découverte. C'est une construction. Le test de QI est étalonné en prenant les scores bruts et en appliquant une transformation monotone qui force la distribution cumulative sur l'échelle de probabilité normale. Ensuite, les scores résultants sont déclarés mesurer l'intelligence, qui est définie comme ce que le test étalonné mesure.

Résultat : l'intelligence, définie comme ce que ce test mesure, suit une distribution normale. Bien sûr qu'elle le fait : c'est ce pour quoi elle a été conçue. La distribution normale n'est pas une propriété de l'intelligence dans le monde ; c'est une propriété de la procédure d'étalonnage.

La généralisation de Hamming : vous obtenez ce que vous mesurez. L'instrument, la procédure d'étalonnage et la définition ne sont pas indépendants. Ils forment une boucle fermée. Ce que l'instrument mesure devient la définition de ce qui est réel.

Son exemple d'examen de calcul : il peut produire presque n'importe quelle distribution de notes qu'il souhaite en choisissant la distribution de difficulté des questions. Un examen uniformément difficile produit une distribution bimodale (les étudiants le savent ou pas). Un examen mixte produit une courbe en cloche. La distribution est un artefact de la conception du test, pas une découverte sur les étudiants.

Loi de Goodhart : Quand les métriques deviennent des cibles

Trouver la boucle circulaire

L'analyse de Hamming révèle une définition circulaire en trois étapes :

1. Concevoir un instrument et une procédure d'étalonnage.

2. Définir la construction comme « ce que cet instrument mesure ».

3. Rapporter que la construction a la propriété distributive conçue dans l'étalonnage.

Trouvez un système de mesure ou de classification dans un domaine que vous connaissez où fonctionne la même boucle circulaire : l'instrument ou la procédure est conçu pour produire un certain résultat, et ce résultat est alors rapporté comme une découverte sur le monde. Identifiez les trois étapes (instrument, définition, découverte rapportée) et expliquez comment la circularité pourrait induire en erreur quelqu'un qui ne connaît pas l'historique de l'étalonnage.

Quand une mesure devient une cible

La formulation de Hamming, avant que Goodhart ne la nomme : quand vous utilisez une mesure comme cible, elle cesse d'être une mesure valide. L'acte de ciblage corrompt la métrique.

Le mécanisme : avant le ciblage, la métrique corrèle avec la valeur sous-jacente. Après le ciblage, les acteurs rationnels optimisent la métrique directement. La corrélation se rompt car la façon la plus facile d'améliorer la métrique est souvent de la découpler de la valeur sous-jacente.

Les cas de Hamming :

- Body count au Vietnam : utilisé comme mesure du progrès militaire. Les soldats optimisaient le body count en comptant des objets non vérifiables. La métrique augmentait ; le progrès militaire ne l'était pas.

- Croissance du PNB : utilisée comme mesure du bien-être économique. La croissance du PNB peut être réalisée en produisant des choses de valeur négative (nettoyage de la pollution, renforcement militaire, construction de prisons). La métrique s'est désaccouplée du bien-être.

- Scores des tests : utilisés comme mesure de l'apprentissage. Les écoles enseignent pour le test. Les scores augmentent ; la compréhension du sujet sous-jacent peut ne pas l'être.

La solution de Hamming : (1) changer la métrique régulièrement, avant que les gens ne l'optimisent complètement ; (2) utiliser plusieurs métriques simultanément : c'est plus difficile de les optimiser toutes à la fois ; (3) ne jamais compter sur une seule métrique pour une décision importante.

Identifier le mécanisme de corruption

Une organisation de logiciels mesure la productivité des développeurs en comptant les lignes de code (LOC) écrites par semaine. Initialement, LOC corrèle avec la productivité : les développeurs actifs écrivent plus de code que les inactifs.

Décrivez spécifiquement comment la métrique LOC se corrompt quand elle est utilisée comme cible de performance. Nommez au moins trois comportements concrets que les développeurs rationnels adopteraient pour optimiser LOC sans améliorer la productivité. Puis décrivez une alternative multi-métrique qui serait plus difficile à corrompre, et expliquez pourquoi elle est plus difficile.

Le problème de la plage dynamique

Hamming soulève un problème de mesure subtil : les échelles de notation ont une plage dynamique, et la plupart des gens ne l'utilisent pas.

Exemple : une échelle de 1 à 10 où 5 est la moyenne. La plupart des évaluateurs utilisent 4, 5 et 6, ne s'aventurant jamais vers 1 ou 9. La plage dynamique de leurs notes est effectivement 3 (de 4 à 6), même si l'échelle en fournit 10.

La conséquence : un évaluateur qui utilise la plage complète a 3× plus d'influence sur une note moyenne que celui qui compresse vers le milieu. Si vous notez quelque chose que vous n'aimez pas à 2 (plage complète) tandis que l'autre évaluateur donne ce qu'il aime une note 6 (plage compressée), la moyenne est 4 : votre aversion l'emporte sur leur goût même si les deux ont une voix égale dans la conception du système de notation.

La connexion théorie de l'information de Hamming : l'entropie (surprise moyenne) d'une distribution est maximisée quand la distribution est uniforme. Une échelle de notation où tous les notes sont utilisées également communique le maximum d'information. Une échelle où la plupart des notes se regroupent à 5 communique très peu : les notes portent presque aucune information.

Son conseil pratique : utilisez la plage dynamique complète de toute échelle qui vous est assignée. Si on vous donne une échelle de 1 à 10, ne la traitez pas comme une échelle de 1 à 6. Faire ainsi réduit votre influence et réduit le contenu informatif de vos notes.

Information et plage dynamique

Deux professeurs notent sur une échelle de 0 à 100. Le professeur A utilise uniquement la plage 70-90 (comprime à 20 points). Le professeur B utilise la plage complète 0-100 (utilise 100 points). Supposons que la distribution de notes de chaque professeur est uniforme dans leur plage utilisée.

En utilisant la formule d'entropie H = log₂(n) pour une distribution uniforme sur n résultats également probables, calculez le contenu informatif (en bits) d'une seule note de chaque professeur. Combien de fois plus d'information la note du professeur B porte-t-elle que celle du professeur A ? Que signifie cela pour un comité d'admission aux études supérieures qui reçoit les notes des deux professeurs ?