IQ Nasıl Normal Dağılım Elde Eder
Hamming, Bölüm 29'da IQ testinin dikkatli bir analizini yapar.
İddia: zeka, popülasyonda normal dağılımı takip eder. Ölçüm: puanları kümülatif olasılık ölçeği üzerinde çizin (olasılık kağıdı). Puanlar düz bir çizgi üzerinde düşer — normal dağılımı gösterir.
Hamming'in tanımladığı sorun: bu bir keşif değil. Bu bir inşadır. IQ testi, ham puanları alarak ve kümülatif dağılımı normal olasılık ölçeğine zorlayan monoton bir dönüşüm uygulayarak kalibre edilir. Daha sonra elde edilen puanlar, kalibre edilen test tarafından ölçülenin tanımı olan zekanın ölçüsü olduğu ilan edilir.
Sonuç: bu test tarafından ölçülenin tanımı olan zeka, normal dağılır. Tabii ki öyle — tasarlanması için vardı. Normal dağılım, dünyadaki zekanın bir özelliği değil; kalibrasyonun bir özelliğidir.
Hamming'in genellemesi: ölçtüğünüz şeyi elde edersiniz. Alet, kalibrasyonun prosedürü ve tanım bağımsız değildir. Kapalı bir döngü oluştururlar. Aletin ölçtüğü şey, gerçeğin tanımı haline gelir.
Onun kalkülüs sınavı örneği: soruların zorluk dağılımını seçerek istediği hemen hemen herhangi bir not dağılımı üretebilir. Tekdüze zor bir sınav bimodal dağılım oluşturur (öğrenciler onu ya bilirler ya bilmezler). Karışık bir sınav çan eğrisi oluşturur. Dağılım, öğrencileri hakkında bir keşif değil, test tasarımının bir eseridir.
Dairesel Döngüyü Bulma
Hamming'in analizi üç adımlı dairesel bir tanımı ortaya çıkarır:
1. Bir alet ve kalibrasyonun prosedürünü tasarlayın.
2. Yapıyı 'bu aletin ölçtüğü şey' olarak tanımlayın.
3. Yapının, kalibrasyon sırasında tasarlanan dağıtımsal özelliğe sahip olduğunu raporlayın.
Bir Ölçü Hedef Haline Geldiğinde
Goodhart bunu adlandırmadan önceki Hamming'in formülasyonu: bir ölçüyü hedef olarak kullandığınızda, geçerli bir ölçü olmaktan çıkar. Hedeflemenin eylemi metriği bozar.
Mekanizma: hedeflenmeden önce, metrik temel değerle ilişkili. Hedeflendikten sonra, rasyonel aktörler metriği doğrudan optimize eder. Korelasyon kırılır çünkü metriği iyileştirmenin en kolay yolu genellikle onu temel değerden ayırmaktır.
Hamming'in durumları:
- Vietnam'da Ölü Sayısı: askerî ilerlemenin bir ölçüsü olarak kullanıldı. Askerler doğrulanamayan nesneleri sayarak ölü sayısını optimize ettiler. Metrik arttı; askerî ilerleme olmadı.
- GSMH Büyümesi: ekonomik refah ölçüsü olarak kullanıldı. GSMH büyümesi, negatif değeri olan şeyleri üretimle elde edilebilir (kirlilik temizliği, askerî genişleme, hapisane inşaatı). Metrik, refahtan ayrılmış.
- Test Puanları: öğrenmenin bir ölçüsü olarak kullanıldı. Okullar teste göre öğretir. Puanlar yükselir; temel konunun anlaşılması olmayabilir.
Hamming'in çözümü: (1) insanlar tamamen optimize etmeden önce metriği düzenli olarak değiştirin; (2) birden fazla metriği eşzamanlı olarak kullanın — bunların tümünü aynı anda optimize etmek daha zordur; (3) herhangi bir önemli karar için hiçbir zaman tek bir metriğe güvenmeyin.
Bozulma Mekanizmasını Tanımla
Bir yazılım kuruluşu, geliştiricilerin haftada yazılan kod satırlarını (LOC) sayarak geliştiricilerin verimliliğini ölçer. Başlangıçta, LOC verimlilikle ilişkili — etkin geliştiriciler, hareketsiz olanlardan daha fazla kod yazarlar.
Dinamik Aralık Problemi
Hamming ince bir ölçüm problemini yükseltir: derecelendirme ölçeklerinin dinamik aralığı vardır ve çoğu insan bunu kullanmaz.
Örnek: 5'in ortalama olduğu 1-10 ölçeği. Çoğu derecelendirici, 4, 5 ve 6 kullanır, hiçbir zaman 1 veya 9'a cesaret etmez. Derecelendirmelerinin dinamik aralığı etkin şekilde 3'tür (4'ten 6'ya), ölçek 10 sağlasa da.
Sonuç: tam aralığı kullanan bir derecelendirici, orta noktaya sıkıştırılan birine kıyasla ortalama derecelendirme üzerinde 3 kat daha fazla etkiye sahiptir. Beğenmediğiniz bir şeyi 2 olarak (tam aralık) derecelendirirken, diğer derecelendirici beğendikleri şeyi 6 olarak verirse (sıkıştırılmış aralık), ortalama 4'tür — sizin hoşlanmamışlığınız, derecelendirme sisteminin tasarımında her ikisinin de eşit söze sahip olmasına rağmen, onların hoşlanmasını ağırlaştırır.
Hamming'in bilgi teorisi bağlantısı: bir dağılımın entropisi (ortalama sürpriz) dağılım tekdüze olduğunda maksimize edilir. Tüm notların eşit şekilde kullanıldığı bir derecelendirme ölçeği maksimum bilgiyi iletir. Çoğu derecelendirmenin 5'te kümelendiği bir ölçek çok az iletir — derecelendirmeler neredeyse hiçbir bilgi taşımaz.
Onun pratik tavsiyesi: atanan herhangi bir ölçeğin tüm dinamik aralığını kullanın. Size 1'den 10'a kadar bir ölçek verildiyse, bunu 1'den 6'ya kadar olarak işlem görmez. Bunu yapmak etkinizi ve derecelendirmelerinizin bilgi içeriğini azaltır.
Bilgi ve Dinamik Aralık
İki profesör 0-100 ölçeğinde not verir. Profesör A sadece 70-90 aralığını kullanır (20 noktaya sıkıştırır). Profesör B tam aralığı (0-100) kullanır (100 noktayı kullanır). Her profesörün not dağılımının kullanılan aralıkları içinde tekdüze olduğunu varsayın.