un — Hamming Bab 29: Anda Mendapatkan Apa yang Anda Ukur

un

tamu

1 / ?

kembali ke pelajaran

Bagaimana IQ Mendapatkan Distribusi Normalnya

Hamming membuka Bab 29 dengan pembedahan cermat pengujian IQ.

Klaim: inteligensi mengikuti distribusi normal dalam populasi. Pengukuran: plot skor pada skala probabilitas kumulatif (kertas probabilitas). Skor jatuh pada garis lurus — menunjukkan distribusi normal.

Masalah yang diidentifikasi Hamming: ini bukan penemuan. Ini adalah konstruksi. Tes IQ dikalibrasi dengan mengambil skor mentah & menerapkan transformasi monoton yang memaksa distribusi kumulatif ke skala probabilitas normal. Kemudian skor yang dihasilkan dinyatakan untuk mengukur inteligensi, yang didefinisikan sebagai apa yang diukur tes yang dikalibrasi.

Hasil: inteligensi, didefinisikan sebagai apa yang diukur tes ini, terdistribusi normal. Tentu saja — dirancang untuk menjadi demikian. Distribusi normal bukan sifat inteligensi di dunia; itu adalah sifat prosedur kalibrasi.

Generalisasi Hamming: Anda mendapatkan apa yang Anda ukur. Instrumen, prosedur kalibrasi, & definisi tidak independen. Mereka membentuk loop tertutup. Apa yang diukur instrumen menjadi definisi tentang apa yang nyata.

Contoh ujian kalkulusnya: dia dapat menghasilkan hampir distribusi nilai apa pun yang diinginkan dengan memilih distribusi kesulitan pertanyaan. Ujian yang seragam sulit menghasilkan distribusi bimodal (siswa baik mengetahuinya atau tidak). Ujian campuran menghasilkan kurva lonceng. Distribusi adalah artefak desain tes, bukan penemuan tentang siswa.

Hukum Goodhart: Ketika Metrik Menjadi Target

Menemukan Loop Sirkular

Analisis Hamming mengungkapkan definisi sirkular tiga langkah:

1. Desain instrumen & prosedur kalibrasi.

2. Definisikan konstruk sebagai 'apa yang diukur instrumen ini.'

3. Laporkan bahwa konstruk memiliki sifat distribusional yang dirancang ke dalam kalibrasi.

Temukan sistem pengukuran atau klasifikasi di bidang yang Anda ketahui di mana loop sirkular yang sama beroperasi: instrumen atau prosedur dirancang untuk menghasilkan hasil tertentu, & kemudian hasil itu dilaporkan sebagai penemuan tentang dunia. Identifikasi tiga langkah (instrumen, definisi, penemuan yang dilaporkan) & jelaskan bagaimana sirkularitas dapat menyesatkan seseorang yang tidak mengetahui riwayat kalibrasi.

Ketika Ukuran Menjadi Target

Formulasi Hamming, sebelum Goodhart menamainya: ketika Anda menggunakan ukuran sebagai target, itu berhenti menjadi ukuran yang valid. Tindakan penargetan merusak metrik.

Mekanisme: sebelum penargetan, metrik berkorelasi dengan nilai yang mendasar. Setelah penargetan, aktor rasional mengoptimalkan metrik secara langsung. Korelasi putus karena cara termudah untuk meningkatkan metrik sering kali adalah untuk memutuskan hubungannya dari nilai yang mendasar.

Kasus Hamming:

- Perhitungan tubuh di Vietnam: digunakan sebagai ukuran kemajuan militer. Tentara mengoptimalkan perhitungan tubuh dengan menghitung objek yang tidak dapat diverifikasi. Metrik meningkat; kemajuan militer tidak.

- Pertumbuhan PNB: digunakan sebagai ukuran kesejahteraan ekonomi. Pertumbuhan PNB dapat dicapai dengan memproduksi hal-hal dengan nilai negatif (pembersihan polusi, pembangunan militer, konstruksi penjara). Metrik terpisah dari kesejahteraan.

- Skor tes: digunakan sebagai ukuran pembelajaran. Sekolah mengajar ke tes. Skor meningkat; pemahaman tentang subjek yang mendasar mungkin tidak.

Solusi Hamming: (1) ubah metrik secara teratur, sebelum orang sepenuhnya mengoptimalkannya; (2) gunakan beberapa metrik secara bersamaan — lebih sulit mengoptimalkan semuanya sekaligus; (3) jangan pernah mengandalkan metrik tunggal untuk keputusan penting apa pun.

Identifikasi Mekanisme Korupsi

Organisasi perangkat lunak mengukur produktivitas pengembang dengan menghitung baris kode (LOC) yang ditulis per minggu. Awalnya, LOC berkorelasi dengan produktivitas — pengembang aktif menulis lebih banyak kode daripada yang tidak aktif.

Jelaskan secara spesifik bagaimana metrik LOC menjadi rusak ketika digunakan sebagai target kinerja. Namai setidaknya tiga perilaku konkret yang akan diadopsi pengembang rasional untuk mengoptimalkan LOC tanpa meningkatkan produktivitas. Kemudian jelaskan alternatif multi-metrik yang akan lebih sulit untuk dirusak, & jelaskan mengapa lebih sulit.

Masalah Rentang Dinamis

Hamming mengemukakan masalah pengukuran yang halus: skala penilaian memiliki rentang dinamis, & sebagian besar orang tidak menggunakannya.

Contoh: skala 1-10 di mana 5 adalah rata-rata. Sebagian besar penilai menggunakan 4, 5, & 6, tidak pernah berani pergi ke 1 atau 9. Rentang dinamis penilaian mereka secara efektif adalah 3 (dari 4 hingga 6), meskipun skala menyediakan 10.

Konsekuensinya: penilai yang menggunakan rentang penuh memiliki pengaruh 3× pada penilaian rata-rata dibandingkan dengan yang mengompresi ke tengah. Jika Anda menilai sesuatu yang tidak Anda sukai sebagai 2 (rentang penuh) sementara penilai lain memberikan apa yang mereka sukai nilai 6 (rentang terkompresi), rata-ratanya adalah 4 — ketidaksukaanmu mengungguli kesukaan mereka meskipun keduanya memiliki suara yang sama dalam desain sistem penilaian.

Koneksi teori informasi Hamming: entropi (kejutan rata-rata) dari distribusi dimaksimalkan ketika distribusi itu seragam. Skala penilaian di mana semua nilai digunakan secara sama mengkomunikasikan informasi maksimum. Skala di mana sebagian besar penilaian berkumpul pada 5 mengkomunikasikan sangat sedikit — penilaian membawa hampir tidak ada informasi.

Saran praktisnya: gunakan seluruh rentang dinamis dari skala apa pun yang Anda tetapkan. Jika Anda diberi skala dari 1 hingga 10, jangan perlakukan sebagai 1 hingga 6. Melakukan hal itu mengurangi pengaruh Anda & mengurangi konten informasi penilaian Anda.

Informasi & Rentang Dinamis

Dua profesor memberi nilai pada skala 0-100. Profesor A hanya menggunakan rentang 70-90 (mengompresi menjadi 20 poin). Profesor B menggunakan rentang penuh 0-100 (menggunakan 100 poin). Asumsikan setiap distribusi nilai profesor itu seragam dalam rentang yang mereka gunakan.

Menggunakan rumus entropi H = log₂(n) untuk distribusi seragam di atas n hasil yang sama-kemungkinan, hitung konten informasi (dalam bit) dari satu nilai dari setiap profesor. Berapa kali lebih banyak informasi yang dibawa nilai Profesor B dibandingkan dengan Profesor A? Apa arti ini bagi komite penerimaan sekolah pascasarjana yang menerima nilai kedua profesor?