un — Hamming Cap. 29: Ottieni Ciò che Misuri

un

ospite

1 / ?

torna alle lezioni

Come IQ Ottiene la Sua Distribuzione Normale

Hamming apre il Capitolo 29 con una dissezione attenta dei test di IQ.

L'affermazione: l'intelligenza segue una distribuzione normale nella popolazione. Misurazione: tracciare i punteggi su una scala di probabilità cumulativa (carta di probabilità). I punteggi cadono su una linea retta — indicando una distribuzione normale.

Il problema che Hamming identifica: questa non è una scoperta. È una costruzione. Il test di IQ è calibrato prendendo i punteggi grezzi e applicando una trasformazione monotona che forza la distribuzione cumulativa sulla scala di probabilità normale. Quindi i punteggi risultanti vengono dichiarati misurare l'intelligenza, che è definita come ciò che il test calibrato misura.

Risultato: l'intelligenza, definita come ciò che questo test misura, è normalmente distribuita. Naturalmente lo è — è stato progettato per esserlo. La distribuzione normale non è una proprietà dell'intelligenza nel mondo; è una proprietà della procedura di calibrazione.

La generalizzazione di Hamming: ottieni ciò che misuri. Lo strumento, la procedura di calibrazione e la definizione non sono indipendenti. Formano un anello chiuso. Ciò che lo strumento misura diventa la definizione di ciò che è reale.

Il suo esempio dell'esame di calcolo: può produrre praticamente qualsiasi distribuzione di voti che desidera scegliendo la distribuzione di difficoltà delle domande. Un esame uniformemente difficile produce una distribuzione bimodale (gli studenti o lo sanno o non lo sanno). Un esame misto produce una curva a campana. La distribuzione è un artefatto della progettazione del test, non una scoperta sugli studenti.

La Legge di Goodhart: Quando le Metriche Diventano Bersagli

Trovare il Ciclo Circolare

L'analisi di Hamming rivela una definizione circolare in tre fasi:

1. Progettare uno strumento e una procedura di calibrazione.

2. Definire il costrutto come 'ciò che questo strumento misura.'

3. Riportare che il costrutto ha la proprietà di distribuzione progettata nella calibrazione.

Trovare un sistema di misurazione o classificazione in un campo che conosci dove lo stesso ciclo circolare opera: lo strumento o la procedura è progettato per produrre un certo risultato, e quindi quel risultato viene segnalato come una scoperta sul mondo. Identificare i tre passaggi (strumento, definizione, scoperta segnalata) e spiegare come la circolarità potrebbe fuorviare qualcuno che non conoscesse la storia della calibrazione.

Quando una Misura Diventa un Bersaglio

La formulazione di Hamming, prima che Goodhart la nominasse: quando usi una misura come bersaglio, cessa di essere una misura valida. L'atto di puntare corrompe la metrica.

Il meccanismo: prima del targeting, la metrica si correla con il valore sottostante. Dopo il targeting, gli attori razionali ottimizzano la metrica direttamente. La correlazione si rompe perché il modo più semplice per migliorare la metrica è spesso deaccoppiare da essa dal valore sottostante.

I casi di Hamming:

- Body count in Vietnam: utilizzato come misura del progresso militare. I soldati hanno ottimizzato il body count contando oggetti non verificabili. La metrica è aumentata; il progresso militare no.

- Crescita del PNL: utilizzato come misura del benessere economico. La crescita del PNL può essere ottenuta producendo cose con valore negativo (pulizia dell'inquinamento, accumulo militare, costruzione di prigioni). La metrica si è divorziata dal benessere.

- Punteggi dei test: utilizzato come misura dell'apprendimento. Le scuole insegnano al test. I punteggi aumentano; la comprensione della materia sottostante potrebbe non aumentare.

La soluzione di Hamming: (1) cambia la metrica regolarmente, prima che le persone la ottimizzino completamente; (2) usa più metriche contemporaneamente — è più difficile ottimizzare tutte alla volta; (3) non fare mai affidamento su una singola metrica per nessuna decisione importante.

Identificare il Meccanismo di Corruzione

Un'organizzazione di software misura la produttività degli sviluppatori contando le linee di codice (LOC) scritte per settimana. Inizialmente, LOC si correla con la produttività — gli sviluppatori attivi scrivono più codice di quelli inattivi.

Descrivi specificamente come la metrica LOC viene corrotta quando viene utilizzata come bersaglio di prestazione. Nomina almeno tre comportamenti concreti che gli sviluppatori razionali adotterebbero per ottimizzare LOC senza migliorare la produttività. Quindi descrivi un'alternativa multi-metrica che sarebbe più difficile da corrompere e spiega perché è più difficile.

Il Problema della Gamma Dinamica

Hamming solleva un problema di misurazione sottile: le scale di valutazione hanno gamma dinamica, e la maggior parte delle persone non la usa.

Esempio: una scala da 1 a 10 dove 5 è medio. La maggior parte dei valutatori usa 4, 5 e 6, non venendo mai a 1 o 9. La gamma dinamica delle loro valutazioni è effettivamente 3 (da 4 a 6), anche se la scala fornisce 10.

La conseguenza: un valutatore che usa l'intera gamma ha 3× l'influenza su una valutazione media di uno che comprime verso il centro. Se valuti qualcosa che non ti piace come 2 (gamma completa) mentre l'altro valutatore dà a quello che gli piace un 6 (gamma compressa), la media è 4 — il tuo dispiacere supera il loro piacere anche se entrambi hanno voce uguale nella progettazione del sistema di valutazione.

La connessione della teoria dell'informazione di Hamming: l'entropia (sorpresa media) di una distribuzione è massimizzata quando la distribuzione è uniforme. Una scala di valutazione dove tutti i voti vengono utilizzati equamente comunica le informazioni massime. Una scala dove la maggior parte dei voti si raggruppa a 5 comunica molto poco — i voti portano quasi nessuna informazione.

Il suo consiglio pratico: usa l'intera gamma dinamica di qualsiasi scala ti venga assegnata. Se ti viene data una scala da 1 a 10, non trattarla come da 1 a 6. Farlo riduce la tua influenza e riduce il contenuto informativo delle tue valutazioni.

Informazione e Gamma Dinamica

Due professori valutano su una scala 0-100. Il Professore A usa solo la gamma 70-90 (comprime a 20 punti). Il Professore B usa l'intera gamma 0-100 (usa 100 punti). Assumi che la distribuzione dei voti di ogni professore sia uniforme all'interno della gamma utilizzata.

Utilizzando la formula dell'entropia H = log₂(n) per una distribuzione uniforme su n risultati ugualmente probabili, calcola il contenuto informativo (in bit) di un singolo voto da ogni professore. Quante volte più informazioni porta il voto del Professore B rispetto al Professore A? Cosa significa questo per una commissione di ammissione a una scuola di specializzazione che riceve i voti di entrambi i professori?