Bagaimana IQ Mendapatkan Distribusi Normalnya
Hamming membuka Bab 29 dengan pembedahan cermat pengujian IQ.
Klaim: inteligensi mengikuti distribusi normal dalam populasi. Pengukuran: plot skor pada skala probabilitas kumulatif (kertas probabilitas). Skor jatuh pada garis lurus — menunjukkan distribusi normal.
Masalah yang diidentifikasi Hamming: ini bukan penemuan. Ini adalah konstruksi. Tes IQ dikalibrasi dengan mengambil skor mentah & menerapkan transformasi monoton yang memaksa distribusi kumulatif ke skala probabilitas normal. Kemudian skor yang dihasilkan dinyatakan untuk mengukur inteligensi, yang didefinisikan sebagai apa yang diukur tes yang dikalibrasi.
Hasil: inteligensi, didefinisikan sebagai apa yang diukur tes ini, terdistribusi normal. Tentu saja — dirancang untuk menjadi demikian. Distribusi normal bukan sifat inteligensi di dunia; itu adalah sifat prosedur kalibrasi.
Generalisasi Hamming: Anda mendapatkan apa yang Anda ukur. Instrumen, prosedur kalibrasi, & definisi tidak independen. Mereka membentuk loop tertutup. Apa yang diukur instrumen menjadi definisi tentang apa yang nyata.
Contoh ujian kalkulusnya: dia dapat menghasilkan hampir distribusi nilai apa pun yang diinginkan dengan memilih distribusi kesulitan pertanyaan. Ujian yang seragam sulit menghasilkan distribusi bimodal (siswa baik mengetahuinya atau tidak). Ujian campuran menghasilkan kurva lonceng. Distribusi adalah artefak desain tes, bukan penemuan tentang siswa.
Menemukan Loop Sirkular
Analisis Hamming mengungkapkan definisi sirkular tiga langkah:
1. Desain instrumen & prosedur kalibrasi.
2. Definisikan konstruk sebagai 'apa yang diukur instrumen ini.'
3. Laporkan bahwa konstruk memiliki sifat distribusional yang dirancang ke dalam kalibrasi.
Ketika Ukuran Menjadi Target
Formulasi Hamming, sebelum Goodhart menamainya: ketika Anda menggunakan ukuran sebagai target, itu berhenti menjadi ukuran yang valid. Tindakan penargetan merusak metrik.
Mekanisme: sebelum penargetan, metrik berkorelasi dengan nilai yang mendasar. Setelah penargetan, aktor rasional mengoptimalkan metrik secara langsung. Korelasi putus karena cara termudah untuk meningkatkan metrik sering kali adalah untuk memutuskan hubungannya dari nilai yang mendasar.
Kasus Hamming:
- Perhitungan tubuh di Vietnam: digunakan sebagai ukuran kemajuan militer. Tentara mengoptimalkan perhitungan tubuh dengan menghitung objek yang tidak dapat diverifikasi. Metrik meningkat; kemajuan militer tidak.
- Pertumbuhan PNB: digunakan sebagai ukuran kesejahteraan ekonomi. Pertumbuhan PNB dapat dicapai dengan memproduksi hal-hal dengan nilai negatif (pembersihan polusi, pembangunan militer, konstruksi penjara). Metrik terpisah dari kesejahteraan.
- Skor tes: digunakan sebagai ukuran pembelajaran. Sekolah mengajar ke tes. Skor meningkat; pemahaman tentang subjek yang mendasar mungkin tidak.
Solusi Hamming: (1) ubah metrik secara teratur, sebelum orang sepenuhnya mengoptimalkannya; (2) gunakan beberapa metrik secara bersamaan — lebih sulit mengoptimalkan semuanya sekaligus; (3) jangan pernah mengandalkan metrik tunggal untuk keputusan penting apa pun.
Identifikasi Mekanisme Korupsi
Organisasi perangkat lunak mengukur produktivitas pengembang dengan menghitung baris kode (LOC) yang ditulis per minggu. Awalnya, LOC berkorelasi dengan produktivitas — pengembang aktif menulis lebih banyak kode daripada yang tidak aktif.
Masalah Rentang Dinamis
Hamming mengemukakan masalah pengukuran yang halus: skala penilaian memiliki rentang dinamis, & sebagian besar orang tidak menggunakannya.
Contoh: skala 1-10 di mana 5 adalah rata-rata. Sebagian besar penilai menggunakan 4, 5, & 6, tidak pernah berani pergi ke 1 atau 9. Rentang dinamis penilaian mereka secara efektif adalah 3 (dari 4 hingga 6), meskipun skala menyediakan 10.
Konsekuensinya: penilai yang menggunakan rentang penuh memiliki pengaruh 3× pada penilaian rata-rata dibandingkan dengan yang mengompresi ke tengah. Jika Anda menilai sesuatu yang tidak Anda sukai sebagai 2 (rentang penuh) sementara penilai lain memberikan apa yang mereka sukai nilai 6 (rentang terkompresi), rata-ratanya adalah 4 — ketidaksukaanmu mengungguli kesukaan mereka meskipun keduanya memiliki suara yang sama dalam desain sistem penilaian.
Koneksi teori informasi Hamming: entropi (kejutan rata-rata) dari distribusi dimaksimalkan ketika distribusi itu seragam. Skala penilaian di mana semua nilai digunakan secara sama mengkomunikasikan informasi maksimum. Skala di mana sebagian besar penilaian berkumpul pada 5 mengkomunikasikan sangat sedikit — penilaian membawa hampir tidak ada informasi.
Saran praktisnya: gunakan seluruh rentang dinamis dari skala apa pun yang Anda tetapkan. Jika Anda diberi skala dari 1 hingga 10, jangan perlakukan sebagai 1 hingga 6. Melakukan hal itu mengurangi pengaruh Anda & mengurangi konten informasi penilaian Anda.
Informasi & Rentang Dinamis
Dua profesor memberi nilai pada skala 0-100. Profesor A hanya menggunakan rentang 70-90 (mengompresi menjadi 20 poin). Profesor B menggunakan rentang penuh 0-100 (menggunakan 100 poin). Asumsikan setiap distribusi nilai profesor itu seragam dalam rentang yang mereka gunakan.