IQ'nin Normal Dağılma Nasıl Kazanır
Hamming 29. bölümü, IQ testinin dikkatli bir incelemesiyle açıyor.
Talep: zeka, nüfusun içinde normal bir dağılım gösterir. Ölçüm: puanları bir küme olasılık ölçekine (olasılık kağıdı) çizmek. Puanlar bir doğru hattın üzerinde düşer - normal bir dağılımı gösterir.
Hamming tarafından tanımlanan sorun: bu, gerçek bir keşif değil. Bir yapılandırma. IQ testi, raw puanlara bir monoton dönüşüm uygulayarak küme dağılımını normal olasılık ölçekine uygular ve ardından ölçülen zeka olarak tanımlanan şeyin ne olduğunu ölçen testin ne ölçtüğünü belirtir.
Sonuç: zeka, bu testi ölçen şey olarak tanımlanır ve tabii ki öyle - tasarlandığı gibi olmalı. Normal dağılım, zekanın dünyada bir özelliği değil, kalibrasyon prosedürünün bir özelliğidir.
Hamming'in genellemesi: ölçün neyin ne olduğunu belirleyin. Araç, kalibrasyon prosedürü ve tanım bağımsız değil. Onlar bir kapalı döngü oluşturur. Ne ölçen araç, neyin gerçek olduğunu belirleyen şey olur.
Örneği: Matematik sınavı - istediği herhangi bir derece dağıtımı elde edebilir (sınıflar öğrenciler veya öğrenci olmayanlar arasında neredeyse her dağılım). Çok zor bir sınav, bimodal bir dağılım üretir (öğrenciler sınavı bilir veya bilmez). Karışık bir sınav, bir elmas küpü oluşturur. Dağılım, test tasarımı tarafından üretilen bir eserdir, öğrenciler hakkındaki gerçek bir keşif değil.
Dairesel Döngüyü Bulma
Hamming'in analizi, üç adımı içeren dairesel bir tanım gösterir:
1. Bir araç ve kalibrasyon prosedürü tasarlayın.
2. Yapılan şeyin 'bu araç ölçtüğünü' tanımlayın.
3. Yapılan şeyin, kalibrasyon işlemine tasarlanan dağılım özelliklerine sahip olduğunu bildirin.
Ölçünün Hedef Olması
Hamming'in formülasyonu, Goodhart adlandırdıktan önce: Bir ölçüyü hedef haline getirdiğinizde, geçerliği olmayan bir ölçü haline gelir. Hedeflenmeye başlanması, ölçüyü kirletir.
Mekanizm: Hedeflenmemişken, ölçü gerçek değere bağlıdır. Hedeflenmeye başlandığında, rasyonel aktörler ölçüyü doğrudan optimize eder. Bağlantı kopar çünkü genellikle ölçüyü gerçek değerden ayırmanın en kolay yolu, ölçüyü doğrudan optimize etmektir.
Hamming'in örnekleri:
- Vietnam'daki ölü sayısı: askeri ilerlemeyi ölçmek için kullanılır. Askerler, ölçüyü artırmanın en kolay yolunu, doğrulanamayan nesneleri sayarak uygular. Ölçü artar; askeri ilerleme artmaz.
- GNP büyüme: refah seviyesi olarak ölçülür. GNP büyümesi, olumsuz değere sahip şeyler üretmek (kirlenme temizliği, askeri buildup, hapishane inşası) ile sağlanabilir. Refah ile bağlantılı değildir.
- Sınava puanlar: öğrenme düzeyini ölçmek için kullanılır. Okullar sınavlara hazırlanır. Puanlar artar; gerçek konu hakkındaki anlayış değişmeyebilir.
Hamming'in çözümü: (1) ölçüyü düzenli olarak değiştirin, optimize edilmeden önce; (2) aynı anda birden fazla ölçüm kullanın - bir kere daha zor optimize edilir; (3) önemli bir karar için asla tek bir ölçüme güvenmeyin.
Suistimal Mekanizmini Tanımla
Bir yazılım organizasyonu, geliştiricinin haftalık yazdığı satır sayısına (LOC) göre verimliliği ölçer. İlk olarak, LOC verimlilikle ilişkilidir - aktif geliştiriciler, pasif olanlara göre daha fazla kod yazar.
Dinamik Aralik Sorunu
Hamming, ince bir ölçüm problemini ortaya koyar: puanlama ölçütleri dinamik araliklara sahiptir ve çoğu kişi bunu kullanmaz.
Örnek: 1-10 skalası, 5'in ortanca olduğu durumda. Çoğu rater, 4, 5 ve 6'yi kullanır ve 1 veya 9'a asla gider. Puanlama skalalarının dinamik aralikları, gerçekte 10 sağasa rağmen, 3 (4'ten 6'ya) olarak etkin olarak kullanılır.
Sonuç: Tam aralığa sahip bir değerlendirici, ortalamayı etkilemek için sıkıştırılmış bir değerlendirme yapanın 3 katından daha fazla etkiye sahiptir. Eğer bir şeyden hoşlanmadığınızı 2 (tam aralık) olarak değerlendirirseniz ve diğer değerlendirici hoşlandığını 6 (sıkıştırılmış aralık) olarak belirtirse, ortalama 4'tür - hoşlanmadığınız şey, beğeninizi bile design'da eşit sesli olduğu sürece ağırlıkla oynar.
Hamming'in bilgi teorisi bağlantısı: bir dağılımın entropisi (ortalama şaşırtma) eşit olarak dağılmadığında en fazla olur. Tüm dereceleri eşit olarak kullanan bir değerlendirme ölçeği, en fazla bilgiyi ileter. Tüm dereceler 5 etrafında yoğunlaşan bir ölçek, neredeyse hiç bilgi taşımadığı için çok az bilgi taşır.
Pratik tavsiyesi: size verilen herhangi bir ölçekteki tam dinamik aralığı kullanın. 1'den 10'a kadar bir ölçek verilirse, bunu 1'den 6'ya dönüştürmeyin. Aksi takdirde, etkisini azaltır ve derecelerinizin bilgi içeriğini azaltır.
Bilgi ve Dinamik Aralık
İki profesör, 0-100 skalasında değerlendirme yapar. Profesör A sadece 70-90 aralığını kullanır (20 puan sıkıştırır). Profesör B, tam aralık 0-100 kullanır (100 puan kullanır). Her profesörün kullandıkları aralığın içinde eşit dağıldığını varsayın.