un — Хеммінг Гл. 29: Ви отримуєте те, що вимірюєте

un

гість

1 / ?

Як IQ отримує нормальний розподіл

Хеммінг розпочинає Розділ 29 ретельним аналізом тестування IQ.

Твердження: розум розподіляється нормально в популяції. Вимірювання: графік балів на шкалі кумулятивної ймовірності (імовірнісний папір). Бали падають на пряму лінію — що вказує на нормальний розподіл.

Проблема, яку виявляє Хеммінг: це не відкриття. Це конструкція. Тест IQ калібрується шляхом взяття сирих балів і застосування монотонного перетворення, яке змушує кумулятивний розподіл на нормальну імовірнісну шкалу. Потім отримані бали оголошуються мірою розуму, який визначається як те, що вимірює калібрований тест.

Результат: розум, визначений як те, що вимірює цей тест, розподіляється нормально. Звісно, що розподіляється — він був розроблений для цього. Нормальний розподіл - це не властивість розуму у світі; це властивість процедури калібрування.

Узагальнення Хеммінга: ви отримуєте те, що вимірюєте. Прилад, процедура калібрування та визначення не є незалежними. Вони утворюють замкнутий контур. Те, що вимірює прилад, стає визначенням того, що є реальним.

Його приклад екзамену з математичного аналізу: він може створити майже будь-який розподіл оцінок, який він хоче, вибираючи розподіл складності запитань. Рівномірно складний екзамен створює бімодальний розподіл (студенти або знають, або не знають). Змішаний екзамен створює дзвонову криву. Розподіл - це артефакт дизайну тесту, а не відкриття про студентів.

Закон Гудхарта: Коли метрики стають цілями

Знаходження циклічної петлі

Аналіз Хеммінга виявляє трирівневе циклічне визначення:

1. Розробити прилад і процедуру калібрування.

2. Визначити конструкт як 'те, що вимірює цей прилад.'

3. Повідомити, що конструкт має властивість розподілу, вбудовану в калібрування.

Знайдіть систему вимірювання або класифікації в галузі, яку ви знаєте, де функціонує та сама циклічна петля: прилад або процедура розроблені для створення певного результату, а потім цей результат повідомляється як відкриття про світ. Визначте три кроки (прилад, визначення, повідомлене відкриття) і поясніть, як циклічність могла б ввести в оману когось, хто не знав історії калібрування.

Коли міра стає ціллю

Формулювання Хеммінга, до того, як Гудхарт його назвав: коли ви використовуєте міру як ціль, вона перестає бути дійсною мірою. Дія цільового впливу псує метрику.

Механізм: до цільового впливу метрика корелює з базовою цінністю. Після цільового впливу раціональні діячі оптимізують метрику безпосередньо. Кореляція порушується, оскільки найпростіший спосіб поліпшити метрику часто полягає в тому, щоб відокремити її від базової цінності.

Випадки Хеммінга:

- Кількість тіл у В'єтнамі: використовується як міра військового прогресу. Солдати оптимізували кількість тіл, рахуючи неперевіримі об'єкти. Метрика зросла; військовий прогрес - ні.

- Зростання ВНП: використовується як міра економічного благополуччя. Зростання ВНП можна досягти, виробляючи речі з негативною цінністю (очищення від забруднення, військова підготовка, будівництво в'язниць). Метрика розлучена від благополуччя.

- Тестові оцінки: використовуються як міра навчання. Школи навчають за тестом. Оцінки зростають; розуміння основної теми може й не зростати.

Рішення Хеммінга: (1) регулярно змінювати метрику, перш ніж люди повністю її оптимізують; (2) використовувати кілька метрик одночасно — складніше оптимізувати всі їх одразу; (3) ніколи не покладайтеся на одну метрику для будь-якого важливого рішення.

Визначте механізм корупції

Організація розробки програмного забезпечення вимірює продуктивність розробника, підраховуючи рядки коду (LOC), написані за тиждень. Спочатку LOC корелює з продуктивністю — активні розробники пишуть більше коду, ніж неактивні.

Опишіть конкретно, як метрика LOC псується, коли вона використовується як ціль продуктивності. Назвіть щонайменше три конкретні поведінки, які раціональні розробники прийняли б, щоб оптимізувати LOC без покращення продуктивності. Потім опишіть альтернативу з кількома метриками, яку було б складніше псувати, і поясніть, чому це складніше.

Проблема динамічного діапазону

Хеммінг піднімає тонку проблему вимірювання: рейтингові шкали мають динамічний діапазон, і більшість людей його не використовує.

Приклад: шкала від 1 до 10, де 5 - це середнє. Більшість оцінювачів використовують 4, 5 та 6, ніколи не наважуючись піти до 1 чи 9. Динамічний діапазон їхніх оцінок фактично становить 3 (від 4 до 6), хоча шкала дає 10.

Наслідок: оцінювач, який використовує повний діапазон, має в 3 рази більше впливу на середню оцінку, ніж той, хто стискає до середини. Якщо ви оцінюєте щось, що вам не подобається, як 2 (повний діапазон), а інший оцінювач дає те, що їм подобається, 6 (стиснутий діапазон), середнє значення дорівнює 4 — ваша нелюбов перевищує їхню подобу, хоча обидва мають рівний голос у розробці системи рейтингування.

Зв'язок Хеммінга з теорією інформації: ентропія (середній сюрприз) розподілу максимізується, коли розподіл рівномірний. Рейтингова шкала, де всі оцінки використовуються рівномірно, передає максимальну інформацію. Шкала, де більшість оцінок скупчуються на 5, передає дуже мало — оцінки несуть майже ніякої інформації.

Його практична порада: використовуйте весь динамічний діапазон будь-якої шкали, яка вам надається. Якщо вам дано шкалу від 1 до 10, не ставитеся до неї як до 1 до 6. Це зменшує ваш вплив і зменшує інформаційний вміст ваших оцінок.

Інформація та динамічний діапазон

Два професори оцінюють за шкалою 0-100. Професор А використовує лише діапазон 70-90 (стискає до 20 балів). Професор Б використовує весь діапазон 0-100 (використовує 100 балів). Припустимо, що розподіл оцінок кожного професора рівномірний в межах їхнього використаного діапазону.

Використовуючи формулу ентропії H = log₂(n) для рівномірного розподілу над n однаково ймовірними результатами, обчисліть інформаційний вміст (у бітах) однієї оцінки від кожного професора. У скільки разів більше інформації несе оцінка професора Б, ніж оцінка професора А? Що це означає для комітету приймаючої спеціалізації, який отримує оцінки обох професорів?