un — Ölçtüğünüz Şeyi Elde Edersiniz Geometrisi

un

konuk

1 / ?

derslere geri dön

Değer Uzayı vs Ölçüm Uzayı

Dünyayı iki uzay olarak modelleyin:

Değer uzayı V: gerçekten önem verdiğiniz şeye göre dünyanın durum kümesi. V'deki noktalar gerçek temel niceliğin farklı seviyelerini temsil eder (öğrenci öğrenişi, askeri ilerleme, ekonomik refahlık).

Ölçüm uzayı M: metriğin alabilecği değerler kümesi. Bir metrik bir f: V → M fonksiyonudur — değer uzayından ölçüm uzayına bir gönderim.

Geçerli bir metrik, f'nin ilgili bölgede izometriye yakın olduğu bir metriktir: M'deki eşit değişiklikler V'deki eşit değişikliklere karşılık gelir. M'deki yakın noktalar V'deki yakın noktalara karşılık gelir.

Çarpıtılmış bir metrik, f'nin izometrik olmayan bir metriktir: metrik V'nin bazı bölgelerini sıkıştırır (büyük değişiklikleri görünmez kılar) ve diğerlerini genişletir (küçük değişiklikleri büyük gösterir). IQ kalibrasyonu tasarlanmış bir çarpıtmadır: ham puan dağılımını, V'deki zekânın gerçek dağılımından bağımsız olarak M'de bir Gauss dağılımına eşler.

Goodhart yasası haritalama açısından: M bir hedef haline geldiğinde, ajanlar M'de gradyan çıkışı uygularlar. f bir çarpıtma olduğundan, M'de gradyan çıkışı V'de gradyan çıkışına karşılık gelmez. Ajan M'de hareket eder ancak V'de hareket etmez (veya geri hareket eder).

Metric Distortion: Value Space vs Measurement Space

Metrik Geçerliğini Test Etme

Bir şirket çalışan performansını 1-5 yıldız ölçeğinde değerlendirir. Ölçek, çalışanların %80'inin 3 veya daha yüksek puan alacak şekilde ayarlanmıştır. Performans değerlendirme sistemi hem tazminat kararları (sıra önemli olduğu) hem de iyileştirme planları (mutlak seviye önemli olduğu) için kullanılır.

Bu metrik, gerçek performansın izometrik bir gönderimi mi yoksa çarpıtılmış bir gönderimi mi? Sıkıştırma ve genişletme kavramlarını kullanarak açıklayın. Sonra: hangi kullanım durumunda (tazminat veya iyileştirme planları) çarpıtma daha önemlidir ve neden?

Yanlış Uzayda Gradyan Çıkışı

Optimizasyon problemini geometrik olarak modelleyin. V = değer uzayı (gerçek öğrenci öğrenişi, askeri ilerleme, vb.) ve M = metrik uzayı (test puanları, ölüm sayıları, vb.) olsun.

Gerçek değerin gradyanı: ∇_V(value) önem verdiğiniz temel miktarı artıran V'deki yönü gösterir.

Metriğin gradyanı: ∇_M(metric) metriği artıran M'deki yönü gösterir.

f: V → M bir izometri olmadığından, değer uzayındaki metriğin gradyanı (f(∇_M)) ∇_V ile hizalanmamıştır. Aralarındaki açı, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), Goodhart başarısızlığının ciddiyetini ölçer.

Eğer θ = 0: metrik gradyanı ve değer gradyanı aynı yönü gösterir. Metriği optimize etmek değeri optimize eder. Goodhart yozlaşması yok.

Eğer θ = 90°: metrik gradyanı değere ortogonaldir. Metriği optimize etmek M'de hareket eder ancak V'de hiç hareket etmez.

Eğer θ = 180°: metrik gradyanı değerin tersi yönü gösterir. Metriği optimize etmek aktif olarak değeri kötüleştirir.

Metrik bir hedef haline geldiğinde ve ajanlar metrik üzerinde gradyan çıkışı uyguladığında, ∇_V'yi değil f*(∇_M)'yi takip ederler. Sapma açısı θ metrik oynanırken zaman içinde büyür — ajanlar ∇_M ve ∇_V'nin en çok sapmış olduğu bölgeleri bulurken, harita f daha az izometrik hale gelir, çünkü bunlar oyunun en etkili yollarıdır.

Sapmanın Ölçülmesi

Basit bir iki boyutlu değer uzayını düşünün V = (beceri, uyum) burada beceri = öğrencinin gerçek anlayışı, uyum = öğrencinin sınav çözme prosedürlerini takip etme yeteneği.

Bir test metriği M = 0.3 × beceri + 0.7 × uyum (uyumun %70 ağırlığa sahip olduğu belirli bir doğrusal kombinasyon).

Bu 2B modelde, metriğin gradyanı (beceri, uyum) uzayında (0.3, 0.7) vektörüdür. Bir öğrenci metriği sadece uyumu geliştirerek optimize eder (değer uzayında (0, 1) yönünde hareket eder). Metrik gradyanı ile saf beceri yönü (1, 0) arasındaki açının kosinüsünü hesaplayın. Açıklayın: metrik gradyanı 'beceriyi artırma' ile iyi mi hizalanmıştır (θ küçük) yoksa kötü mü hizalanmıştır (θ büyük)? Bu, öğrenciler bu metrik için optimize ettiğinde neler olacağı hakkında ne tahmin eder?

Goodhart'a Karşı Savunma Olarak Çok Amaçlı Optimizasyon

Hamming'in savunması: birden fazla metriği aynı anda kullanın. Geometrik yorum: tek bir amaç fonksiyonunu f(x) maksimize etmek yerine, bir amaç vektörü üzerinde optimize edin F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Bir vektör amaç için, çözüm konsepti Pareto sınırıdır: başka bir hedefi kötüleştirmeden hiçbir hedefin iyileştirilmeyebileceği çözümlerin kümesi. Pareto sınırı tek optimumu değiştirir.

Bunun neden Goodhart'a karşı savunduğu: metrikleri oynatmak için, rasyonel bir ajan tüm fᵢ'yi aynı anda artıran (veya en azından yargılandığı metrikleri) değer uzayında bir yön bulmalıdır. Metrikler yeterince bağımsız ise — gradyan yönleri yeterince paralel değilse — böyle bir yön yoktur. Bir metriği oynatmak diğerini kötüleştirir.

Savunma derecesi: k metrik gradyanları k-boyutlu uzayı kapsıyorsa (doğrusal olarak bağımsızsa), metriklerinin herhangi bir uygun alt kümesini optimize etmek en az bir hariç tutulan metriği kötüleştirir. Tam Pareto savunması, tüm metrikleri iyileştiren hiçbir oyun yönünün olmadığını gerektirir.

Ölçüm değişmezliği: bir metrik M, α'daki değişiklikler için M(x + δα) = M(x) ise ilgisiz öznitelik α'ya göre değişmezdir. IQ metriği sınav çözme uygulamasına göre değişmez değildir: öğrenciler temel yapıda gerçek kazanımlar olmadan sınava pratik yaptığında IQ değişir.

Pareto Savunmalı Bir Metrik Sistem Tasarlayın

İki metrik sistemde bir araştırma bilimcisini değerlendirmeyi düşünün: M₁ = yıllık yayınlar, M₂ = makale başına alıntı oranı (makale başına alıntılar).

Bu iki metriğin birlikte, herhangi bir metrik tek başına olduğundan neden oynanması daha zor olduğunu geometrik olarak açıklayın. Özellikle: M₁'i tek başına maksimize etmek için bir strateji tanımlayın, M₂'yi tek başına maksimize etmek için bir strateji tanımlayın, sonra bu stratejilerin her birinin diğer metriği kötüleştirdiğini gösterin. Sonra: gerçek araştırma değeri üretmeden her ikisini aynı anda artıran herhangi bir kalıntı oyun stratejisi var mı, ve eğer varsa, nedir?