un

guest
1 / ?
back to lessons

IQ'nin Normal Dağılma Nasıl Kazanır

Hamming 29. bölümü, IQ testinin dikkatli bir incelemesiyle açıyor.

Talep: zeka, nüfusun içinde normal bir dağılım gösterir. Ölçüm: puanları bir küme olasılık ölçekine (olasılık kağıdı) çizmek. Puanlar bir doğru hattın üzerinde düşer - normal bir dağılımı gösterir.

Hamming tarafından tanımlanan sorun: bu, gerçek bir keşif değil. Bir yapılandırma. IQ testi, raw puanlara bir monoton dönüşüm uygulayarak küme dağılımını normal olasılık ölçekine uygular ve ardından ölçülen zeka olarak tanımlanan şeyin ne olduğunu ölçen testin ne ölçtüğünü belirtir.

Sonuç: zeka, bu testi ölçen şey olarak tanımlanır ve tabii ki öyle - tasarlandığı gibi olmalı. Normal dağılım, zekanın dünyada bir özelliği değil, kalibrasyon prosedürünün bir özelliğidir.

Hamming'in genellemesi: ölçün neyin ne olduğunu belirleyin. Araç, kalibrasyon prosedürü ve tanım bağımsız değil. Onlar bir kapalı döngü oluşturur. Ne ölçen araç, neyin gerçek olduğunu belirleyen şey olur.

Örneği: Matematik sınavı - istediği herhangi bir derece dağıtımı elde edebilir (sınıflar öğrenciler veya öğrenci olmayanlar arasında neredeyse her dağılım). Çok zor bir sınav, bimodal bir dağılım üretir (öğrenciler sınavı bilir veya bilmez). Karışık bir sınav, bir elmas küpü oluşturur. Dağılım, test tasarımı tarafından üretilen bir eserdir, öğrenciler hakkındaki gerçek bir keşif değil.

Goodhart'ın Yasası: Ölçütler Hedef Haline Gelir

Dairesel Döngüyü Bulma

Hamming'in analizi, üç adımı içeren dairesel bir tanım gösterir:

1. Bir araç ve kalibrasyon prosedürü tasarlayın.

2. Yapılan şeyin 'bu araç ölçtüğünü' tanımlayın.

3. Yapılan şeyin, kalibrasyon işlemine tasarlanan dağılım özelliklerine sahip olduğunu bildirin.

Bilgi alanınızda, ölçüm veya sınıflandırma sistemini bulun, aynı dairesel döngü çalışır: araç veya prosedür, belirli bir sonuç elde etmek için tasarlanır ve ardından bu sonuç, dünyanın hakkındaki gerçek bir keşif olarak bildirilir. Üç adımı (araç, tanım, bildirilen keşif) belirleyin ve kalibrasyon tarihi bilmeden aldatıcı olabilecek dairesellik nedenini açıklayın.

Ölçünün Hedef Olması

Hamming'in formülasyonu, Goodhart adlandırdıktan önce: Bir ölçüyü hedef haline getirdiğinizde, geçerliği olmayan bir ölçü haline gelir. Hedeflenmeye başlanması, ölçüyü kirletir.

Mekanizm: Hedeflenmemişken, ölçü gerçek değere bağlıdır. Hedeflenmeye başlandığında, rasyonel aktörler ölçüyü doğrudan optimize eder. Bağlantı kopar çünkü genellikle ölçüyü gerçek değerden ayırmanın en kolay yolu, ölçüyü doğrudan optimize etmektir.

Hamming'in örnekleri:

- Vietnam'daki ölü sayısı: askeri ilerlemeyi ölçmek için kullanılır. Askerler, ölçüyü artırmanın en kolay yolunu, doğrulanamayan nesneleri sayarak uygular. Ölçü artar; askeri ilerleme artmaz.

- GNP büyüme: refah seviyesi olarak ölçülür. GNP büyümesi, olumsuz değere sahip şeyler üretmek (kirlenme temizliği, askeri buildup, hapishane inşası) ile sağlanabilir. Refah ile bağlantılı değildir.

- Sınava puanlar: öğrenme düzeyini ölçmek için kullanılır. Okullar sınavlara hazırlanır. Puanlar artar; gerçek konu hakkındaki anlayış değişmeyebilir.

Hamming'in çözümü: (1) ölçüyü düzenli olarak değiştirin, optimize edilmeden önce; (2) aynı anda birden fazla ölçüm kullanın - bir kere daha zor optimize edilir; (3) önemli bir karar için asla tek bir ölçüme güvenmeyin.

Suistimal Mekanizmini Tanımla

Bir yazılım organizasyonu, geliştiricinin haftalık yazdığı satır sayısına (LOC) göre verimliliği ölçer. İlk olarak, LOC verimlilikle ilişkilidir - aktif geliştiriciler, pasif olanlara göre daha fazla kod yazar.

LOC ölçütü performans hedefi olarak kullanıldığında nasıl kirlenir? En az üç somut davranış belirtin. Rasyonel geliştiricilerin verimliliği artırmadan LOC'u optimize etmek için hangi davranışları benimserler? Ardından, daha zor kirleneceği açıklamasıyla bir çoklu ölçüt alternatifini tanımlayın.

Dinamik Aralik Sorunu

Hamming, ince bir ölçüm problemini ortaya koyar: puanlama ölçütleri dinamik araliklara sahiptir ve çoğu kişi bunu kullanmaz.

Örnek: 1-10 skalası, 5'in ortanca olduğu durumda. Çoğu rater, 4, 5 ve 6'yi kullanır ve 1 veya 9'a asla gider. Puanlama skalalarının dinamik aralikları, gerçekte 10 sağasa rağmen, 3 (4'ten 6'ya) olarak etkin olarak kullanılır.

Sonuç: Tam aralığa sahip bir değerlendirici, ortalamayı etkilemek için sıkıştırılmış bir değerlendirme yapanın 3 katından daha fazla etkiye sahiptir. Eğer bir şeyden hoşlanmadığınızı 2 (tam aralık) olarak değerlendirirseniz ve diğer değerlendirici hoşlandığını 6 (sıkıştırılmış aralık) olarak belirtirse, ortalama 4'tür - hoşlanmadığınız şey, beğeninizi bile design'da eşit sesli olduğu sürece ağırlıkla oynar.

Hamming'in bilgi teorisi bağlantısı: bir dağılımın entropisi (ortalama şaşırtma) eşit olarak dağılmadığında en fazla olur. Tüm dereceleri eşit olarak kullanan bir değerlendirme ölçeği, en fazla bilgiyi ileter. Tüm dereceler 5 etrafında yoğunlaşan bir ölçek, neredeyse hiç bilgi taşımadığı için çok az bilgi taşır.

Pratik tavsiyesi: size verilen herhangi bir ölçekteki tam dinamik aralığı kullanın. 1'den 10'a kadar bir ölçek verilirse, bunu 1'den 6'ya dönüştürmeyin. Aksi takdirde, etkisini azaltır ve derecelerinizin bilgi içeriğini azaltır.

Bilgi ve Dinamik Aralık

İki profesör, 0-100 skalasında değerlendirme yapar. Profesör A sadece 70-90 aralığını kullanır (20 puan sıkıştırır). Profesör B, tam aralık 0-100 kullanır (100 puan kullanır). Her profesörün kullandıkları aralığın içinde eşit dağıldığını varsayın.

Eşit olasılıklı bir dağılım için entropi formülünü H = log₂(n) kullanarak, her profesörün tek bir derecesinin bilgi içeriğini (bit) hesaplayın. Profesör B'nin derecesi, Profesör A'nınkinden ne kadar daha fazla bilgi taşır? Bu, hem profesörün derecelerini aldıkları bir yüksek lisans giriş komitesine ne anlama gelir?