un

guest
1 / ?
back to lessons

Değer Alanı ve Ölçüm Alanı

Dünyayı iki alana modele:

Değer alanı V: sizin gerçekten önem verdiğiniz dünya durumları ile ilgili. V'deki noktalar, gerçek alt yapı miktarı (öğrenci öğrenimi, askeri ilerleme, ekonomik refah) açısından farklı seviyeleri temsil eder.

Ölçüm alanı M: ölçümün alabileceği değerler. Bir ölçüm, f: V → M — gerçek alt yapıdan ölçüm alanına bir taşıma fonksiyonudur.

Bir doğru ölçüm , f'nin ilgili bölgede bir izometriye yakın olduğu bir ölçüm: M'deki eşit değişiklikler V'deki eşit değişikliklere karşılık gelir. M'deki yakın noktalar V'deki yakın noktalara karşılık gelir.

Bir kötü ölçüm , f'nin izometrik olmadığı bir ölçüm: ölçüm V'nin bazı bölgelerini sıkıştırır (büyük değişiklikleri görünmez kılar) ve diğerlerini genişletir (küçük değişiklikleri büyük görünür kılar). IQ kalibrasyonu, zekanın gerçek dağılımına bakılmaksızın M'de bir Gaussiyana raw score dağılımını haritalar bir distorsiyon olarak tasarlanmıştır.

Taşıma terimleri ile Goodhart'ın kanunu: M hedef haline gelince, agentler M'deki gradient asçensüsünü uygularlar. Çünkü f distorsiyondur, M'deki gradient asçensüsü V'deki gradient asçensüsüne karşılık gelmez. Agent M'de hareket ederken V'de (veya V'de geri) hareket etmez.

Değer Alanı ve Ölçüm Alanı: Ölçüm Distorsiyonu

Doğru Ölçüm Geçerliliği Testi

Bir şirket, çalışan performansı için 1-5 yıldızlık ölçekte değerlendirir. Ölçüm ölçeği, çalışanların %80'inin 3 veya daha yüksek puan almasını sağlar. Performans inceleme sistemi, sıralama önemli olduğu tazminat kararları için ve gerçek seviye önemli olduğu gelişim planları için kullanılır.

Bu ölçüm, izometrik taşıma veya distorsiyonlu taşıma gerçek performansın gerçek performansından daha yakındır mı? Sıkıştırma ve genişletme kavramlarını kullanarak açıklayın. Ardından: distorsiyonun daha fazla önem taşıyan kullanım durumu (tazminat kararları veya gelişim planları) hangisi ve neden?

Gradyen Tırmanışı Yanlış Alan

Optimleşme sorununu geometrik olarak modele yerleştirin. V = gerçek değer alanı (gerçek öğrenci öğrenimi, askeri ilerleme vb.) ve M = ölçüm alanı (sınav puanları, öldürme sayıları vb.).

Gerçek değer gradiyeni: ∇_V(value), V'deki gerçek değerini artırabilecek yönde işaret eder.

Ölçüm gradiyeni: ∇_M(metric), M'deki ölçümü artırabilecek yönde işaret eder.

Çünkü f: V → M izometrik değil, değer alanı içinde ölçüm gradiyenin (f(∇_M)) gradiyenin gerçek değerle hizalı olmadığı görülüyor. Onları ayıran açının ağırlığı θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)) ile ölçülür. Goodhart başarısızlığının şiddeti.

Eğer θ = 0: ölçüm gradiyeni ve gerçek değer gradiyeni aynı yönde işaret eder. Ölçüm üzerine optimizasyon, değer optimizasyonuna dönüşür. Goodhart kirlenmesi yok.

Eğer θ = 90°: ölçüm gradiyeni, değeri artırabilecek yönde değil. Ölçüm üzerine optimizasyon, M'de hareket etmeden V'de hiç hareket etmez.

Eğer θ = 180°: ölçüm gradiyeni, değeri azaltabilecek yönde işaret eder. Ölçüm üzerine optimizasyon, değerleri aktif olarak bozar.

Ölçüm hedef haline gelince ve agentler ölçüm üzerine gradyan tırmanışı yaparlarsa, f*(∇_M) yerine ∇_V takip ederler. Gradyen ayrılma açısı θ, zamanla ölçüm oyunu oynanırken artar - ölçümün izometrikliği azalmaya başlar çünkü agentler, ∇_M ve ∇_V'nin en fazla ayrılmasını sağlayan bölgeleri bulurlar, çünkü bu, ölçüm oyunu oynamak için en verimli yollarlardır.

Ayrılma Açısını Ölç

Düşünün: basit iki boyutlu değer uzayı V = (beceri, uyumluluk) nerede beceri = öğrencinin gerçek anlaysı, uyumluluk = öğrencinin sınav alma prosedürlerini takip etme yeteneği.

Test metriği M = 0.3 × beceri + 0.7 × uyumluluk (belirli bir lineer kombinasyon, uyumluluğun %70 ağırlığı var).

Bu 2D modele göre, metrik gradienti (0.3, 0.7) değerlidir. Öğrenci sadece uyumlulukları (0, 1) yönünde geliştirerek metriği optimize eder. Metrik gradienti ve saf beceri yönü (1, 0) arasındaki kozinüs açısını hesaplayın. Açının küçük olduğu (θ küçük) ya da büyük olduğu (θ büyük) 'beceri artışı' ile iyi hizalı olup olmadığını açıklayın. Öğrencilerin bu metriği optimize ederken ne olduğunu tahmin edin?

Çok Amaçlı Optimizasyon, Goodhart Savunması

Hamming savunması: aynı anda birden fazla ölçüt kullanın. Geometrik açıklama: tek bir hedef fonksiyonu optimize etmek yerine, x üzerinde F(x) = (f₁(x), f₂(x), ..., fₖ(x)) vektörü hedef fonksiyonları optimize edin.

Vektör hedef için çözüm kavramı Pareto önleyici: bir hedefin iyileştirilemeyeni diğerini gerileten çözüm yokken. Pareto önleyici, tek optimum yerine kullanılır.

Bu, Goodhart'a karşı koruma sağlar: metrikleri kazandırmak için, rasyonel bir agent, fᵢ'leri (veya değerlendirildikleri metrikler üzerinde en azından) aynı anda artırabilecek bir değerler uzayında yön bulmalıdır. Eğer metrikler yeterince bağımsızsa - gradient yönleri yeterince dik değilse - böyle bir yön yoktur. Bir metriği kazandırmak, diğerini düşürür.

Koruma derecesi: eğer k metrik gradientleri k-boyutlu uzayını (lineer olarak bağımsız) kapalırsa, herhangi bir uygun alt kümeyi optimize etmek en azından bir dışlanan metriği düşürür. Tam Pareto koruması için, hiçbir gaming yönü olmalıdır ki tüm metrikleri iyileştirsin.

Ölçme invariansı: bir metrik M, gereksiz bir özelliğe α göre değişmezse M(x + δα) = M(x) için değişiklikler δ. IQ ölçütü, test almayı uygulamaya koyma ile değişmez değildir: IQ, öğrencilerin gerçek değer kazanmadan testi uygulamaya koyma ile değişir.

Pareto-Defended Metrik Sistemi Tasarla

Bir araştırma bilimcisini iki-metrik sistemle değerlendirelim: M₁ = yayınlar yıla, M₂ = yayın başına alıntı oranı (alıntılar başına yayın).

Bu iki metrikin birlikte oynanmasının, her bir metrikten daha zor oyunlanmasını geometrik olarak açıklayın. Özellikle: M₁'yi tek başına maksimize etme stratejisi, M₂'yi tek başına maksimize etme stratejisi ve ardından her iki stratejinin diğer metriği düşürdüğünü gösterin. Ardından: gerçek araştırma değeri üretmeden her ikisini de aynı anda artırabilecek herhangi bir kalan oyun stratejisi var mı ve eğer varsa ne tür bir şeydir?