un — Geometria di Ottieni Ciò che Misuri

un

ospite

1 / ?

torna alle lezioni

Spazio di Valore vs Spazio di Misurazione

Modella il mondo come due spazi:

Spazio di valore V: l'insieme degli stati del mondo rispetto a ciò che ti importa davvero. I punti in V rappresentano diversi livelli della vera quantità sottostante (apprendimento degli studenti, progresso militare, benessere economico).

Spazio di misurazione M: l'insieme dei valori che la metrica può assumere. Una metrica è una funzione f: V → M — una mappatura dallo spazio di valore allo spazio di misurazione.

Una metrica valida è quella in cui f è vicina a un'isometria nella regione rilevante: cambiamenti uguali in M corrispondono a cambiamenti uguali in V. I punti vicini in M corrispondono a punti vicini in V.

Una metrica distorta è quella in cui f è non-isometrica: la metrica comprime alcune regioni di V (rendendo invisibili i grandi cambiamenti) e ne espande altre (facendo sembrare grandi i piccoli cambiamenti). La calibrazione dell'IQ è una distorsione progettata: mappa la distribuzione del punteggio grezzo a una Gaussiana in M, indipendentemente dalla vera distribuzione dell'intelligenza in V.

La legge di Goodhart in termini di mappatura: quando M diventa un obiettivo, gli agenti applicano salita graduale in M. Poiché f è una distorsione, la salita graduale in M non corrisponde a salita graduale in V. L'agente si muove in M senza muoversi (o muovendosi all'indietro) in V.

Distorsione Metrica: Spazio di Valore vs Spazio di Misurazione

Test della Validità Metrica

Un'azienda valuta le prestazioni dei dipendenti su una scala da 1 a 5 stelle. La scala è calibrata in modo che l'80% dei dipendenti riceva 3 o superiore. Il sistema di valutazione delle prestazioni viene utilizzato sia per le decisioni di compensazione (dove l'ordine di rango è importante) che per i piani di miglioramento (dove il livello assoluto è importante).

Questa metrica è più vicina a una mappatura isometrica o a una mappatura distorta della vera prestazione? Spiega usando i concetti di compressione ed espansione. Poi: per quale caso d'uso (decisioni di compensazione o piani di miglioramento) la distorsione è più importante e perché?

Salita Graduale nello Spazio Sbagliato

Modella il problema di ottimizzazione geometricamente. Sia V = spazio di valore (vera apprendimento studentesco, progresso militare, ecc.) e M = spazio metrico (punteggi di test, conteggi di corpi, ecc.).

Il gradiente del valore vero: ∇_V(value) punta nella direzione in V che aumenta la quantità sottostante che ti importa.

Il gradiente della metrica: ∇_M(metric) punta nella direzione in M che aumenta la metrica.

Poiché f: V → M non è un'isometria, il gradiente della metrica nello spazio di valore (f(∇_M)) non è allineato con ∇_V. L'angolo tra loro, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misura la gravità del fallimento di Goodhart.

Se θ = 0: il gradiente metrico e il gradiente di valore puntano nella stessa direzione. L'ottimizzazione della metrica ottimizza il valore. Nessuna corruzione di Goodhart.

Se θ = 90°: il gradiente metrico è ortogonale al valore. L'ottimizzazione della metrica si muove in M senza muoversi in V affatto.

Se θ = 180°: il gradiente metrico punta in direzione opposta al valore. L'ottimizzazione della metrica degrada attivamente il valore.

Quando la metrica diventa un obiettivo e gli agenti applicano salita graduale sulla metrica, seguono f*(∇_M), non ∇_V. L'angolo di divergenza θ cresce nel tempo mentre la metrica viene manipolata — la mappatura f diventa meno isometrica poiché gli agenti trovano le regioni in cui ∇_M e ∇_V divergono di più, perché quelle sono i percorsi più efficienti per la manipolazione.

Misurare la Divergenza

Considera un semplice spazio di valore bidimensionale V = (abilità, conformità) dove abilità = comprensione effettiva dello studente, conformità = capacità dello studente di seguire le procedure di test.

In questo modello 2D, il gradiente della metrica è il vettore (0.3, 0.7) nello spazio (abilità, conformità). Uno studente ottimizza la metrica migliorando solo la conformità (muovendosi nella direzione (0, 1) nello spazio di valore). Calcola il coseno dell'angolo tra il gradiente della metrica e la direzione di pura abilità (1, 0). Spiega: il gradiente della metrica è ben allineato con 'aumentare l'abilità' (θ piccolo) o malamente allineato (θ grande)? Cosa predice questo su ciò che accade quando gli studenti ottimizzano per questa metrica?

Ottimizzazione Multi-Obiettivo come Difesa Contro Goodhart

La difesa di Hamming: usa più metriche simultaneamente. L'interpretazione geometrica: invece di massimizzare una singola funzione obiettivo f(x), ottimizza su un vettore di obiettivi F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Per un obiettivo vettoriale, il concetto di soluzione è la frontiera di Pareto: l'insieme delle soluzioni in cui nessun obiettivo può essere migliorato senza degradarne un altro. La frontiera di Pareto sostituisce l'ottimo singolo.

Perché questo difende contro Goodhart: per manipolare le metriche, un agente razionale deve trovare una direzione nello spazio di valore che aumenta tutti gli fᵢ contemporaneamente (o almeno le metriche su cui vengono giudicati). Se le metriche sono sufficientemente indipendenti — le loro direzioni di gradiente sono sufficientemente non-parallele — non esiste una tale direzione. Manipolare una metrica degrada un'altra.

Il grado di difesa: se i k gradienti metrici si estendono nello spazio k-dimensionale (sono linearmente indipendenti), allora ottimizzare qualsiasi sottoinsieme proprio di metriche degrada almeno una metrica esclusa. La difesa di Pareto completa richiede che non esista alcuna direzione di manipolazione che migliori tutte le metriche.

Invarianza della misurazione: una metrica M è invariante rispetto all'attributo irrilevante α se M(x + δα) = M(x) per cambiamenti δ in α. La metrica dell'IQ non è invariante rispetto alla pratica dei test: l'IQ cambia quando gli studenti praticano il test senza guadagni genuini nella costruzione sottostante.

Progetta un Sistema Metrico Difeso da Pareto

Considera la valutazione di uno scienziato ricercatore su un sistema a due metriche: M₁ = pubblicazioni per anno, M₂ = tasso di citazione per articolo (citazioni per articolo).

Spiega geometricamente perché questi due metriche insieme sono più difficili da manipolare rispetto a uno solo. Specificamente: descrivi una strategia per massimizzare solo M₁, una strategia per massimizzare solo M₂, e poi mostra che ciascuna di quelle strategie degrada l'altra metrica. Poi: esiste qualche strategia di manipolazione residua che aumenta entrambi simultaneamente senza produrre valore di ricerca genuino, e se sì, quale?