un — Hamming Cap. 29: Obtienes lo que Mides

un

invitado

1 / ?

volver a las lecciones

Cómo la CI Obtiene su Distribución Normal

Hamming abre el Capítulo 29 con un análisis cuidadoso de las pruebas de CI.

La afirmación: la inteligencia sigue una distribución normal en la población. Medición: graficar puntuaciones en una escala de probabilidad acumulada (papel de probabilidad). Las puntuaciones caen en una línea recta — indicando una distribución normal.

El problema que identifica Hamming: esto no es un descubrimiento. Es una construcción. La prueba de CI es calibrada tomando las puntuaciones brutas y aplicando una transformación monótona que fuerza la distribución acumulada sobre la escala de probabilidad normal. Luego, las puntuaciones resultantes se declaran que miden la inteligencia, que se define como lo que mide la prueba calibrada.

Resultado: la inteligencia, definida como lo que mide esta prueba, se distribuye normalmente. Por supuesto que sí — fue diseñada para serlo. La distribución normal no es una propiedad de la inteligencia en el mundo; es una propiedad del procedimiento de calibración.

La generalización de Hamming: obtienes lo que mides. El instrumento, el procedimiento de calibración y la definición no son independientes. Forman un circuito cerrado. Lo que el instrumento mide se convierte en la definición de lo que es real.

Su ejemplo de examen de cálculo: puede producir casi cualquier distribución de calificaciones que desee eligiendo la distribución de dificultad de las preguntas. Un examen uniformemente difícil produce una distribución bimodal (los estudiantes o lo saben o no). Un examen mixto produce una curva de campana. La distribución es un artefacto del diseño de la prueba, no un descubrimiento sobre los estudiantes.

Ley de Goodhart: Cuando las Métricas se Convierten en Objetivos

Encontrando el Circuito Circular

El análisis de Hamming revela una definición circular de tres pasos:

1. Diseñar un instrumento y procedimiento de calibración.

2. Definir el constructo como 'lo que este instrumento mide.'

3. Informar que el constructo tiene la propiedad distribucional diseñada en la calibración.

Encuentra un sistema de medición o clasificación en un campo que conozcas donde opera el mismo circuito circular: el instrumento o procedimiento está diseñado para producir un cierto resultado, y luego ese resultado se reporta como un descubrimiento sobre el mundo. Identifica los tres pasos (instrumento, definición, descubrimiento reportado) y explica cómo la circularidad podría engañar a alguien que no conocía el historial de calibración.

Cuando una Medida se Convierte en un Objetivo

La formulación de Hamming, antes de que Goodhart la nombrara: cuando usas una medida como objetivo, deja de ser una medida válida. El acto de convertir algo en objetivo corrompe la métrica.

El mecanismo: antes de convertir algo en objetivo, la métrica se correlaciona con el valor subyacente. Después de convertir algo en objetivo, los actores racionales optimizan la métrica directamente. La correlación se rompe porque la forma más fácil de mejorar la métrica es a menudo desacoplarse del valor subyacente.

Los casos de Hamming:

- Conteo de cuerpos en Vietnam: utilizado como medida del progreso militar. Los soldados optimizaron el conteo de cuerpos contando objetos no verificables. La métrica subió; el progreso militar no.

- Crecimiento del PNB: utilizado como medida del bienestar económico. El crecimiento del PNB puede lograrse produciendo cosas con valor negativo (limpieza de contaminación, construcción militar, construcción de cárceles). La métrica se divorció del bienestar.

- Calificaciones de pruebas: utilizadas como medida del aprendizaje. Las escuelas enseñan para la prueba. Las calificaciones suben; la comprensión del tema subyacente puede que no.

La solución de Hamming: (1) cambiar la métrica regularmente, antes de que la gente la optimice completamente; (2) usar múltiples métricas simultáneamente — es más difícil optimizar todas a la vez; (3) nunca confiar en una sola métrica para ninguna decisión importante.

Identificar el Mecanismo de Corrupción

Una organización de software mide la productividad del desarrollador contando las líneas de código (LOC) escritas por semana. Inicialmente, LOC se correlaciona con productividad — los desarrolladores activos escriben más código que los inactivos.

Describe específicamente cómo se corrompe la métrica de LOC cuando se usa como objetivo de desempeño. Nombra al menos tres comportamientos concretos que los desarrolladores racionales adoptarían para optimizar LOC sin mejorar la productividad. Luego describe una alternativa de múltiples métricas que sería más difícil de corromper y explica por qué es más difícil.

El Problema del Rango Dinámico

Hamming plantea un problema de medición sutil: las escalas de calificación tienen rango dinámico, y la mayoría de las personas no lo usan.

Ejemplo: una escala de 1-10 donde 5 es el promedio. La mayoría de los evaluadores usan 4, 5 y 6, nunca se aventuran a 1 o 9. El rango dinámico de sus calificaciones es efectivamente 3 (de 4 a 6), aunque la escala proporciona 10.

La consecuencia: un evaluador que usa el rango completo tiene 3× la influencia en una calificación promediada que uno que se comprime al medio. Si calificas algo que no te gusta como 2 (rango completo) mientras que el otro evaluador da lo que le gusta un 6 (rango comprimido), el promedio es 4 — tu disgusto supera su gusto aunque ambos tengan igual voz en el diseño del sistema de calificación.

La conexión de Hamming con la teoría de la información: la entropía (sorpresa promedio) de una distribución se maximiza cuando la distribución es uniforme. Una escala de calificación donde todas las calificaciones se usan por igual comunica la información máxima. Una escala donde la mayoría de las calificaciones se agrupan en 5 comunica muy poco — las calificaciones llevan casi ninguna información.

Su consejo práctico: usa el rango dinámico completo de cualquier escala que se te asigne. Si se te da una escala de 1 a 10, no la trates como 1 a 6. Hacerlo reduce tu influencia y reduce el contenido de información de tus calificaciones.

Información y Rango Dinámico

Dos profesores califican en una escala de 0-100. El profesor A usa solo el rango 70-90 (se comprime a 20 puntos). El profesor B usa el rango completo 0-100 (usa 100 puntos). Supongamos que la distribución de calificaciones de cada profesor es uniforme dentro de su rango utilizado.

Usando la fórmula de entropía H = log₂(n) para una distribución uniforme sobre n resultados igualmente probables, calcula el contenido de información (en bits) de una sola calificación de cada profesor. ¿Cuántas veces más información lleva la calificación del Profesor B que la del Profesor A? ¿Qué significa esto para un comité de admisiones de posgrado que recibe calificaciones de ambos profesores?