Ruang Nilai vs Ruang Pengukuran
Model dunia sebagai dua ruang:
Ruang Nilai V: setiap negara dunia dengan respect ke apa Anda benar-benar peduli. Titik di V mewakili tingkat yang berbeda dari kuantitas yang benar-benar mendasar (belajar siswa, kemajuan militer, kesejahteraan ekonomi).
Ruang Pengukuran M: setiap nilai yang metrik dapat mengambil. Sebuah metrik adalah fungsi f: V → M - sebuah peta dari ruang nilai ke ruang pengukuran.
Sebuah metrik yang valid adalah satu di mana f dekat dengan isometri di region yang relevan: perubahan setara di M mewakili perubahan setara di V. Titik dekat di M mewakili titik dekat di V.
Sebuah metrik yang distorsi adalah satu di mana f non-isometric: metrik mengompresi beberapa region di V (menjadikan perubahan besar tidak terlihat) dan memperluas yang lain (menjadikan perubahan kecil tampak besar). Kalibrasi IQ adalah distorsi yang dirancang: itu menerjemahkan distribusi skor mentah ke Gaussian di M, terlepas dari distribusi kecerdasan yang benar di V.
Hukum Goodhart dalam hal peta: ketika M menjadi target, agen menerapkan pendahuluan gradien di M. Karena f adalah distorsi, pendahuluan gradien di M tidak sesuai dengan pendahuluan gradien di V. Agennya bergerak di M tanpa bergerak (atau bergerak mundur) di V.
Menguji Ketersediaan Metrik
Perusahaan mengevaluasi kinerja karyawan pada skala 1-5 bintang. Skala tersebut dikalibrasi sehingga 80% karyawan menerima 3 atau lebih tinggi. Sistem ulasan kinerja digunakan untuk keputusan kompensasi (di mana peringkat-urut mungkin penting) dan rencana perbaikan (di mana tingkat absolut mungkin penting).
Gradien Asend di Ruang Salah
Modelkan masalah optimisasi secara geometris. Biarkan V = ruang nilai (belajar mahasiswa nyata, kemajuan militer, dll.) dan M = ruang metrik (skor ujian, korban, dll.).
Gradien dari nilai nyata: ∇_V(value) menunjuk ke arah dalam V yang meningkatkan jumlah yang Anda khawatirkan.
Gradien dari metrik: ∇_M(metric) menunjuk ke arah dalam M yang meningkatkan metrik.
Karena f: V → M bukan isometri, gradien metrik dalam ruang nilai (f(∇_M)) tidak aline dengan ∇_V. Sudut antara mereka, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mengukur keparahan kegagalan Goodhart.
Jika θ = 0: gradien metrik dan gradien nilai menunjuk ke arah yang sama. Mengoptimalkan metrik mengoptimalkan nilai. Tidak ada kotoran Goodhart.
Jika θ = 90°: gradien metrik orthogonal terhadap nilai. Mengoptimalkan metrik bergerak dalam M tanpa bergerak dalam V sama sekali.
Jika θ = 180°: gradien metrik menunjuk ke arah yang berlawanan dengan nilai. Mengoptimalkan metrik secara aktif menurunkan nilai.
Ketika metrik menjadi target dan agen menerapkan asend gradien pada metrik, mereka mengikuti f*(∇_M), bukan ∇_V. Sudut divergensi θ tumbuh secara bertahap seiring waktu saat metrik dimainkan — pemetaan f menjadi kurang isometrik karena agen menemukan region di mana ∇_M dan ∇_V bercermin, karena itu adalah jalur yang paling efisien untuk gaming.
Mengukur Divergensi
Sertakan ruang nilai sederhana dua dimensi V = (keterampilan, ketepatan) di mana keterampilan = pemahaman sebenarnya siswa, ketepatan = kemampuan siswa untuk mengikuti prosedur pemeriksaan.
Metrik ujian M = 0.3 × keterampilan + 0.7 × ketepatan (kombinasi linear khusus, di mana ketepatan memiliki bobot 70%).
Optimasi Multi-Objektif sebagai Pertahanan Terhadap Goodhart
Pertahanan Hamming: gunakan beberapa metrik secara bersamaan. Interpretasi geometrik: bukan meningkatkan fungsi objektif tunggal f(x), optimalkan vektor objektif F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Untuk tujuan vektor, konsep solusi adalah garis Pareto: setiap solusi di mana tidak ada objektif yang dapat ditingkatkan tanpa menurunkan objektif lain. Garis Pareto menggantikan optimum tunggal.
Mengapa ini melindungi terhadap Goodhart: untuk menggame metrik, agen rasional harus menemukan arah dalam ruang nilai yang meningkatkan semua fᵢ secara bersamaan (atau setidaknya metrik yang mereka jajagi). Jika metrik cukup independen - gradien mereka cukup tidak paralel - tidak ada arah seperti itu. Menggame satu metrik akan menurunkan metrik lain.
Derajat perlindungan: jika gradien k metrik memenuhi ruang k-dimensi (salah satu metrik), maka mengoptimalisasi setiap subset yang tepat dari metrik akan menurunkan setidaknya satu metrik yang dikecualikan. Perlindungan Pareto yang penuh membutuhkan bahwa tidak ada arah gaming yang ada yang meningkatkan semua metrik.
Stabilitas pengukuran: metrik M stabil terhadap atribut yang tidak relevan α jika M(x + δα) = M(x) untuk perubahan δ dalam α. Metrik IQ tidak stabil terhadap latihan tes: IQ berubah saat siswa latihan tes tanpa peningkatan yang sebenarnya dalam konstruk dasar.
Desain Sistem Metrik yang Dilindungi Pareto
Sertakan mengevaluasi ilmuwan penelitian pada sistem dua-metrik: M₁ = publikasi per tahun, M₂ = tingkat citasi per artikel (citations per paper).