Як IQ отримує нормальний розподіл
Хеммінг розпочинає Розділ 29 ретельним аналізом тестування IQ.
Твердження: розум розподіляється нормально в популяції. Вимірювання: графік балів на шкалі кумулятивної ймовірності (імовірнісний папір). Бали падають на пряму лінію — що вказує на нормальний розподіл.
Проблема, яку виявляє Хеммінг: це не відкриття. Це конструкція. Тест IQ калібрується шляхом взяття сирих балів і застосування монотонного перетворення, яке змушує кумулятивний розподіл на нормальну імовірнісну шкалу. Потім отримані бали оголошуються мірою розуму, який визначається як те, що вимірює калібрований тест.
Результат: розум, визначений як те, що вимірює цей тест, розподіляється нормально. Звісно, що розподіляється — він був розроблений для цього. Нормальний розподіл - це не властивість розуму у світі; це властивість процедури калібрування.
Узагальнення Хеммінга: ви отримуєте те, що вимірюєте. Прилад, процедура калібрування та визначення не є незалежними. Вони утворюють замкнутий контур. Те, що вимірює прилад, стає визначенням того, що є реальним.
Його приклад екзамену з математичного аналізу: він може створити майже будь-який розподіл оцінок, який він хоче, вибираючи розподіл складності запитань. Рівномірно складний екзамен створює бімодальний розподіл (студенти або знають, або не знають). Змішаний екзамен створює дзвонову криву. Розподіл - це артефакт дизайну тесту, а не відкриття про студентів.
Знаходження циклічної петлі
Аналіз Хеммінга виявляє трирівневе циклічне визначення:
1. Розробити прилад і процедуру калібрування.
2. Визначити конструкт як 'те, що вимірює цей прилад.'
3. Повідомити, що конструкт має властивість розподілу, вбудовану в калібрування.
Коли міра стає ціллю
Формулювання Хеммінга, до того, як Гудхарт його назвав: коли ви використовуєте міру як ціль, вона перестає бути дійсною мірою. Дія цільового впливу псує метрику.
Механізм: до цільового впливу метрика корелює з базовою цінністю. Після цільового впливу раціональні діячі оптимізують метрику безпосередньо. Кореляція порушується, оскільки найпростіший спосіб поліпшити метрику часто полягає в тому, щоб відокремити її від базової цінності.
Випадки Хеммінга:
- Кількість тіл у В'єтнамі: використовується як міра військового прогресу. Солдати оптимізували кількість тіл, рахуючи неперевіримі об'єкти. Метрика зросла; військовий прогрес - ні.
- Зростання ВНП: використовується як міра економічного благополуччя. Зростання ВНП можна досягти, виробляючи речі з негативною цінністю (очищення від забруднення, військова підготовка, будівництво в'язниць). Метрика розлучена від благополуччя.
- Тестові оцінки: використовуються як міра навчання. Школи навчають за тестом. Оцінки зростають; розуміння основної теми може й не зростати.
Рішення Хеммінга: (1) регулярно змінювати метрику, перш ніж люди повністю її оптимізують; (2) використовувати кілька метрик одночасно — складніше оптимізувати всі їх одразу; (3) ніколи не покладайтеся на одну метрику для будь-якого важливого рішення.
Визначте механізм корупції
Організація розробки програмного забезпечення вимірює продуктивність розробника, підраховуючи рядки коду (LOC), написані за тиждень. Спочатку LOC корелює з продуктивністю — активні розробники пишуть більше коду, ніж неактивні.
Проблема динамічного діапазону
Хеммінг піднімає тонку проблему вимірювання: рейтингові шкали мають динамічний діапазон, і більшість людей його не використовує.
Приклад: шкала від 1 до 10, де 5 - це середнє. Більшість оцінювачів використовують 4, 5 та 6, ніколи не наважуючись піти до 1 чи 9. Динамічний діапазон їхніх оцінок фактично становить 3 (від 4 до 6), хоча шкала дає 10.
Наслідок: оцінювач, який використовує повний діапазон, має в 3 рази більше впливу на середню оцінку, ніж той, хто стискає до середини. Якщо ви оцінюєте щось, що вам не подобається, як 2 (повний діапазон), а інший оцінювач дає те, що їм подобається, 6 (стиснутий діапазон), середнє значення дорівнює 4 — ваша нелюбов перевищує їхню подобу, хоча обидва мають рівний голос у розробці системи рейтингування.
Зв'язок Хеммінга з теорією інформації: ентропія (середній сюрприз) розподілу максимізується, коли розподіл рівномірний. Рейтингова шкала, де всі оцінки використовуються рівномірно, передає максимальну інформацію. Шкала, де більшість оцінок скупчуються на 5, передає дуже мало — оцінки несуть майже ніякої інформації.
Його практична порада: використовуйте весь динамічний діапазон будь-якої шкали, яка вам надається. Якщо вам дано шкалу від 1 до 10, не ставитеся до неї як до 1 до 6. Це зменшує ваш вплив і зменшує інформаційний вміст ваших оцінок.
Інформація та динамічний діапазон
Два професори оцінюють за шкалою 0-100. Професор А використовує лише діапазон 70-90 (стискає до 20 балів). Професор Б використовує весь діапазон 0-100 (використовує 100 балів). Припустимо, що розподіл оцінок кожного професора рівномірний в межах їхнього використаного діапазону.