un — Hamming Bölüm 29: Ölçtüğünüz Şeyi Elde Edersiniz

un

konuk

1 / ?

derslere geri dön

IQ Nasıl Normal Dağılım Elde Eder

Hamming, Bölüm 29'da IQ testinin dikkatli bir analizini yapar.

İddia: zeka, popülasyonda normal dağılımı takip eder. Ölçüm: puanları kümülatif olasılık ölçeği üzerinde çizin (olasılık kağıdı). Puanlar düz bir çizgi üzerinde düşer — normal dağılımı gösterir.

Hamming'in tanımladığı sorun: bu bir keşif değil. Bu bir inşadır. IQ testi, ham puanları alarak ve kümülatif dağılımı normal olasılık ölçeğine zorlayan monoton bir dönüşüm uygulayarak kalibre edilir. Daha sonra elde edilen puanlar, kalibre edilen test tarafından ölçülenin tanımı olan zekanın ölçüsü olduğu ilan edilir.

Sonuç: bu test tarafından ölçülenin tanımı olan zeka, normal dağılır. Tabii ki öyle — tasarlanması için vardı. Normal dağılım, dünyadaki zekanın bir özelliği değil; kalibrasyonun bir özelliğidir.

Hamming'in genellemesi: ölçtüğünüz şeyi elde edersiniz. Alet, kalibrasyonun prosedürü ve tanım bağımsız değildir. Kapalı bir döngü oluştururlar. Aletin ölçtüğü şey, gerçeğin tanımı haline gelir.

Onun kalkülüs sınavı örneği: soruların zorluk dağılımını seçerek istediği hemen hemen herhangi bir not dağılımı üretebilir. Tekdüze zor bir sınav bimodal dağılım oluşturur (öğrenciler onu ya bilirler ya bilmezler). Karışık bir sınav çan eğrisi oluşturur. Dağılım, öğrencileri hakkında bir keşif değil, test tasarımının bir eseridir.

Goodhart Yasası: Metrikler Hedef Haline Geldiğinde

Dairesel Döngüyü Bulma

Hamming'in analizi üç adımlı dairesel bir tanımı ortaya çıkarır:

1. Bir alet ve kalibrasyonun prosedürünü tasarlayın.

2. Yapıyı 'bu aletin ölçtüğü şey' olarak tanımlayın.

3. Yapının, kalibrasyon sırasında tasarlanan dağıtımsal özelliğe sahip olduğunu raporlayın.

Bildiğiniz bir alanda, aynı dairesel döngünün işlediği bir ölçüm veya sınıflandırma sistemi bulun: alet veya prosedür belirli bir sonuç üretmek üzere tasarlanmıştır ve ardından bu sonuç dünya hakkında bir keşif olarak raporlanır. Üç adımı (alet, tanım, raporlanan keşif) tanımlayın ve dairesellik, kalibrasyonun tarihini bilmeyen birini nasıl yanıltabileceğini açıklayın.

Bir Ölçü Hedef Haline Geldiğinde

Goodhart bunu adlandırmadan önceki Hamming'in formülasyonu: bir ölçüyü hedef olarak kullandığınızda, geçerli bir ölçü olmaktan çıkar. Hedeflemenin eylemi metriği bozar.

Mekanizma: hedeflenmeden önce, metrik temel değerle ilişkili. Hedeflendikten sonra, rasyonel aktörler metriği doğrudan optimize eder. Korelasyon kırılır çünkü metriği iyileştirmenin en kolay yolu genellikle onu temel değerden ayırmaktır.

Hamming'in durumları:

- Vietnam'da Ölü Sayısı: askerî ilerlemenin bir ölçüsü olarak kullanıldı. Askerler doğrulanamayan nesneleri sayarak ölü sayısını optimize ettiler. Metrik arttı; askerî ilerleme olmadı.

- GSMH Büyümesi: ekonomik refah ölçüsü olarak kullanıldı. GSMH büyümesi, negatif değeri olan şeyleri üretimle elde edilebilir (kirlilik temizliği, askerî genişleme, hapisane inşaatı). Metrik, refahtan ayrılmış.

- Test Puanları: öğrenmenin bir ölçüsü olarak kullanıldı. Okullar teste göre öğretir. Puanlar yükselir; temel konunun anlaşılması olmayabilir.

Hamming'in çözümü: (1) insanlar tamamen optimize etmeden önce metriği düzenli olarak değiştirin; (2) birden fazla metriği eşzamanlı olarak kullanın — bunların tümünü aynı anda optimize etmek daha zordur; (3) herhangi bir önemli karar için hiçbir zaman tek bir metriğe güvenmeyin.

Bozulma Mekanizmasını Tanımla

Bir yazılım kuruluşu, geliştiricilerin haftada yazılan kod satırlarını (LOC) sayarak geliştiricilerin verimliliğini ölçer. Başlangıçta, LOC verimlilikle ilişkili — etkin geliştiriciler, hareketsiz olanlardan daha fazla kod yazarlar.

LOC metriğinin performans hedefi olarak kullanıldığında nasıl bozulduğunu spesifik olarak açıklayın. Rasyonel geliştiricilerin verimliliği iyileştirmeden LOC'yi optimize etmek için benimseyecekleri en az üç somut davranışı adlandırın. Ardından, bozulmaya karşı daha dirençli olan çok metrikli bir alternatif açıklayın ve neden daha zor olduğunu açıklayın.

Dinamik Aralık Problemi

Hamming ince bir ölçüm problemini yükseltir: derecelendirme ölçeklerinin dinamik aralığı vardır ve çoğu insan bunu kullanmaz.

Örnek: 5'in ortalama olduğu 1-10 ölçeği. Çoğu derecelendirici, 4, 5 ve 6 kullanır, hiçbir zaman 1 veya 9'a cesaret etmez. Derecelendirmelerinin dinamik aralığı etkin şekilde 3'tür (4'ten 6'ya), ölçek 10 sağlasa da.

Sonuç: tam aralığı kullanan bir derecelendirici, orta noktaya sıkıştırılan birine kıyasla ortalama derecelendirme üzerinde 3 kat daha fazla etkiye sahiptir. Beğenmediğiniz bir şeyi 2 olarak (tam aralık) derecelendirirken, diğer derecelendirici beğendikleri şeyi 6 olarak verirse (sıkıştırılmış aralık), ortalama 4'tür — sizin hoşlanmamışlığınız, derecelendirme sisteminin tasarımında her ikisinin de eşit söze sahip olmasına rağmen, onların hoşlanmasını ağırlaştırır.

Hamming'in bilgi teorisi bağlantısı: bir dağılımın entropisi (ortalama sürpriz) dağılım tekdüze olduğunda maksimize edilir. Tüm notların eşit şekilde kullanıldığı bir derecelendirme ölçeği maksimum bilgiyi iletir. Çoğu derecelendirmenin 5'te kümelendiği bir ölçek çok az iletir — derecelendirmeler neredeyse hiçbir bilgi taşımaz.

Onun pratik tavsiyesi: atanan herhangi bir ölçeğin tüm dinamik aralığını kullanın. Size 1'den 10'a kadar bir ölçek verildiyse, bunu 1'den 6'ya kadar olarak işlem görmez. Bunu yapmak etkinizi ve derecelendirmelerinizin bilgi içeriğini azaltır.

Bilgi ve Dinamik Aralık

İki profesör 0-100 ölçeğinde not verir. Profesör A sadece 70-90 aralığını kullanır (20 noktaya sıkıştırır). Profesör B tam aralığı (0-100) kullanır (100 noktayı kullanır). Her profesörün not dağılımının kullanılan aralıkları içinde tekdüze olduğunu varsayın.

n eşit olasılıklı sonuç üzerinden tekdüze dağılım için H = log₂(n) entropisi formülünü kullanarak, her profesörden tek bir notun bilgi içeriğini (bit cinsinden) hesaplayın. Profesör B'nin notu Profesör A'nın notunun kaç katı daha fazla bilgi taşır? Bu, her iki profesörün notlarını alan bir lisansüstü okul kabul komitesi için ne anlama gelir?