Spazio dei Valori vs Spazio delle Misurazioni
Modella il mondo come due spazi:
Spazio dei valori V: l'insieme di stati del mondo rispetto a ciò di cui effettivamente ti preoccupi. Punti in V rappresentano diversi livelli della vera quantità sottostante (apprendimento degli studenti, progresso militare, benessere economico).
Spazio delle misurazioni M: l'insieme di valori che la metrica può assumere. Una metrica è una funzione f: V → M - una mappa dallo spazio dei valori allo spazio delle misurazioni.
Una metrica valida è quella in cui f è vicina a un'isometria nella regione rilevante: cambiamenti uguali in M corrispondono a cambiamenti uguali in V. Punti vicini in M corrispondono a punti vicini in V.
Una metrica distorta è quella in cui f è non isometrica: la metrica comprime alcune regioni di V (rendendo invisibili grandi cambiamenti) e dilata altre (rendendo piccoli cambiamenti apparire grandi). La calibrazione dell'IC è una distorsione progettata: mappa la distribuzione dei punteggi originali a una Gaussiana in M, indipendentemente dalla vera distribuzione dell'intelligenza in V.
La legge di Goodhart in termini di mappa: quando M diventa un obiettivo, gli agenti applicano l'ascesa del gradiente in M. Poiché f è una distorsione, l'ascesa del gradiente in M non corrisponde all'ascesa del gradiente in V. L'agente si muove in M senza muoversi (o muoversi indietro) in V.
Test della Validità della Metrica
Una società valuta le prestazioni degli dipendenti su una scala da 1 a 5 stelle. La scala è calibrata in modo che il 80% degli dipendenti riceva 3 o più stelle. Il sistema di valutazione delle prestazioni è utilizzato sia per le decisioni sulle indennità (dove la classifica è importante) che per i piani di miglioramento (dove il livello assoluto è importante).
Ascesa del gradiente nello spazio sbagliato
Modella il problema di ottimizzazione geometricamente. Sia V = spazio dei valori (apprendimento degli studenti, progresso militare, ecc.) e M = spazio metrico (punteggi degli esami, conti, ecc.).
Il gradiente del valore vero: ∇_V(value) punta nella direzione in V che aumenta la quantità sottostante di cui ti preoccupi.
Il gradiente della metrica: ∇_M(metric) punta nella direzione in M che aumenta la metrica.
Perché f: V → M non è una isometria, il gradiente della metrica nello spazio dei valori (f(∇_M)) non è allineato con ∇_V. L'angolo tra di loro, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misura la gravità del fallimento di Goodhart.
Se θ = 0: il gradiente della metrica e il gradiente del valore puntano nella stessa direzione. Ottimizzare la metrica ottimizza il valore. Nessun corruzione di Goodhart.
Se θ = 90°: il gradiente della metrica è ortogonale al valore. Ottimizzare la metrica muove in M senza muoversi in V per niente.
Se θ = 180°: il gradiente della metrica punta nel senso opposto al valore. Ottimizzare la metrica degrada attivamente il valore.
Quando la metrica diventa un obiettivo e gli agenti applicano l'ascesa del gradiente sulla metrica, seguono f*(∇_M), non ∇_V. L'angolo di divergenza θ cresce nel tempo mentre la metrica viene manipolata - la mappa f diventa meno isometrica man mano che gli agenti trovano le regioni dove ∇_M e ∇_V si divergono di più, perché sono le strade più efficienti per la manipolazione.
Misurare la divergenza
Considera uno spazio di valori bidimensionale semplice V = (abilità, conformità) dove abilità = comprensione effettiva dello studente, conformità = capacità dello studente di seguire le procedure di esame.
Un test metric M = 0,3 × abilità + 0,7 × conformità (una combinazione lineare specifica, dove la conformità ha un peso del 70%).
Ottimizzazione Multi-Obiettivo come Difesa Contro Goodhart
Difesa di Hamming: utilizza più metriche contemporaneamente. L'interpretazione geometrica: al posto di massimizzare una singola funzione obiettivo f(x), ottimizza su un vettore di obiettivi F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Per un obiettivo vettoriale, il concetto di soluzione è il frontiera di Pareto: l'insieme di soluzioni in cui nessun obiettivo può essere migliorato senza degradare un altro. La frontiera di Pareto sostituisce l'ottimo singolo.
Perché questo difende contro Goodhart: per gaming le metriche, un agente razionale deve trovare una direzione nello spazio dei valori che aumenta tutti gli fᵢ contemporaneamente (o almeno le metriche su cui vengono giudicate). Se le metriche sono sufficientemente indipendenti - le loro direzioni di gradiente sono sufficientemente non parallele - non esiste tale direzione. Gaming una metrica degrada un'altra.
Il grado di difesa: se i gradienti delle k metriche spaziano nello spazio a k dimensioni (sono linearmente indipendenti), allora ottimizzare qualsiasi sottinsieme di metriche degrada almeno una metrica esclusa. Una piena difesa Pareto richiede che non esista alcuna direzione di gaming che migliora tutte le metriche.
Invarianza di misurazione: una metrica M è invariante rispetto all'attributo irrilevante α se M(x + δα) = M(x) per cambiamenti δ in α. La metrica di QI non è invariante rispetto alla pratica di svolgimento del test: il QI cambia quando gli studenti praticano il test senza guadagni reali nella costruzione sottostante.
Progettare un sistema di metriche difese secondo Pareto
Considera l'evaluazione di uno scienziato della ricerca su un sistema a due metriche: M₁ = pubblicazioni all'anno, M₂ = tasso di citazione per articolo (citate per articolo).