Değer Uzayı vs Ölçüm Uzayı
Dünyayı iki uzay olarak modelleyin:
Değer uzayı V: gerçekten önem verdiğiniz şeye göre dünyanın durum kümesi. V'deki noktalar gerçek temel niceliğin farklı seviyelerini temsil eder (öğrenci öğrenişi, askeri ilerleme, ekonomik refahlık).
Ölçüm uzayı M: metriğin alabilecği değerler kümesi. Bir metrik bir f: V → M fonksiyonudur — değer uzayından ölçüm uzayına bir gönderim.
Geçerli bir metrik, f'nin ilgili bölgede izometriye yakın olduğu bir metriktir: M'deki eşit değişiklikler V'deki eşit değişikliklere karşılık gelir. M'deki yakın noktalar V'deki yakın noktalara karşılık gelir.
Çarpıtılmış bir metrik, f'nin izometrik olmayan bir metriktir: metrik V'nin bazı bölgelerini sıkıştırır (büyük değişiklikleri görünmez kılar) ve diğerlerini genişletir (küçük değişiklikleri büyük gösterir). IQ kalibrasyonu tasarlanmış bir çarpıtmadır: ham puan dağılımını, V'deki zekânın gerçek dağılımından bağımsız olarak M'de bir Gauss dağılımına eşler.
Goodhart yasası haritalama açısından: M bir hedef haline geldiğinde, ajanlar M'de gradyan çıkışı uygularlar. f bir çarpıtma olduğundan, M'de gradyan çıkışı V'de gradyan çıkışına karşılık gelmez. Ajan M'de hareket eder ancak V'de hareket etmez (veya geri hareket eder).
Metrik Geçerliğini Test Etme
Bir şirket çalışan performansını 1-5 yıldız ölçeğinde değerlendirir. Ölçek, çalışanların %80'inin 3 veya daha yüksek puan alacak şekilde ayarlanmıştır. Performans değerlendirme sistemi hem tazminat kararları (sıra önemli olduğu) hem de iyileştirme planları (mutlak seviye önemli olduğu) için kullanılır.
Yanlış Uzayda Gradyan Çıkışı
Optimizasyon problemini geometrik olarak modelleyin. V = değer uzayı (gerçek öğrenci öğrenişi, askeri ilerleme, vb.) ve M = metrik uzayı (test puanları, ölüm sayıları, vb.) olsun.
Gerçek değerin gradyanı: ∇_V(value) önem verdiğiniz temel miktarı artıran V'deki yönü gösterir.
Metriğin gradyanı: ∇_M(metric) metriği artıran M'deki yönü gösterir.
f: V → M bir izometri olmadığından, değer uzayındaki metriğin gradyanı (f(∇_M)) ∇_V ile hizalanmamıştır. Aralarındaki açı, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), Goodhart başarısızlığının ciddiyetini ölçer.
Eğer θ = 0: metrik gradyanı ve değer gradyanı aynı yönü gösterir. Metriği optimize etmek değeri optimize eder. Goodhart yozlaşması yok.
Eğer θ = 90°: metrik gradyanı değere ortogonaldir. Metriği optimize etmek M'de hareket eder ancak V'de hiç hareket etmez.
Eğer θ = 180°: metrik gradyanı değerin tersi yönü gösterir. Metriği optimize etmek aktif olarak değeri kötüleştirir.
Metrik bir hedef haline geldiğinde ve ajanlar metrik üzerinde gradyan çıkışı uyguladığında, ∇_V'yi değil f*(∇_M)'yi takip ederler. Sapma açısı θ metrik oynanırken zaman içinde büyür — ajanlar ∇_M ve ∇_V'nin en çok sapmış olduğu bölgeleri bulurken, harita f daha az izometrik hale gelir, çünkü bunlar oyunun en etkili yollarıdır.
Sapmanın Ölçülmesi
Basit bir iki boyutlu değer uzayını düşünün V = (beceri, uyum) burada beceri = öğrencinin gerçek anlayışı, uyum = öğrencinin sınav çözme prosedürlerini takip etme yeteneği.
Bir test metriği M = 0.3 × beceri + 0.7 × uyum (uyumun %70 ağırlığa sahip olduğu belirli bir doğrusal kombinasyon).
Goodhart'a Karşı Savunma Olarak Çok Amaçlı Optimizasyon
Hamming'in savunması: birden fazla metriği aynı anda kullanın. Geometrik yorum: tek bir amaç fonksiyonunu f(x) maksimize etmek yerine, bir amaç vektörü üzerinde optimize edin F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Bir vektör amaç için, çözüm konsepti Pareto sınırıdır: başka bir hedefi kötüleştirmeden hiçbir hedefin iyileştirilmeyebileceği çözümlerin kümesi. Pareto sınırı tek optimumu değiştirir.
Bunun neden Goodhart'a karşı savunduğu: metrikleri oynatmak için, rasyonel bir ajan tüm fᵢ'yi aynı anda artıran (veya en azından yargılandığı metrikleri) değer uzayında bir yön bulmalıdır. Metrikler yeterince bağımsız ise — gradyan yönleri yeterince paralel değilse — böyle bir yön yoktur. Bir metriği oynatmak diğerini kötüleştirir.
Savunma derecesi: k metrik gradyanları k-boyutlu uzayı kapsıyorsa (doğrusal olarak bağımsızsa), metriklerinin herhangi bir uygun alt kümesini optimize etmek en az bir hariç tutulan metriği kötüleştirir. Tam Pareto savunması, tüm metrikleri iyileştiren hiçbir oyun yönünün olmadığını gerektirir.
Ölçüm değişmezliği: bir metrik M, α'daki değişiklikler için M(x + δα) = M(x) ise ilgisiz öznitelik α'ya göre değişmezdir. IQ metriği sınav çözme uygulamasına göre değişmez değildir: öğrenciler temel yapıda gerçek kazanımlar olmadan sınava pratik yaptığında IQ değişir.
Pareto Savunmalı Bir Metrik Sistem Tasarlayın
İki metrik sistemde bir araştırma bilimcisini değerlendirmeyi düşünün: M₁ = yıllık yayınlar, M₂ = makale başına alıntı oranı (makale başına alıntılar).