un — Хэмминг, гл. 29: Ты получаешь то, что измеряешь

un

гость

1 / ?

Как IQ получает нормальное распределение

Хэмминг открывает главу 29 тщательным анализом тестирования IQ.

Утверждение: интеллект следует нормальному распределению в популяции. Измерение: построение диаграммы оценок на кумулятивной вероятностной шкале (вероятностная бумага). Оценки падают на прямую линию — что указывает на нормальное распределение.

Проблема, которую идентифицирует Хэмминг: это не открытие. Это конструкция. Тест IQ откалиброван путем взятия необработанных оценок и применения монотонного преобразования, которое заставляет кумулятивное распределение соответствовать нормальной вероятностной шкале. Затем полученные оценки объявляются измерением интеллекта, который определяется как то, что измеряет откалиброванный тест.

Результат: интеллект, определяемый как то, что этот тест измеряет, нормально распределяется. Конечно это так — он был разработан такой. Нормальное распределение не является свойством интеллекта в мире; это свойство процедуры калибровки.

Обобщение Хэмминга: ты получаешь то, что измеряешь. Инструмент, процедура калибровки и определение не независимы. Они образуют замкнутый цикл. То, что измеряет инструмент, становится определением того, что реально.

Его пример с экзаменом по исчислению: он может произвести почти любое распределение оценок, которое хочет, выбирая распределение сложности вопросов. Равномерно сложный экзамен производит бимодальное распределение (студенты либо знают, либо нет). Смешанный экзамен производит кривую колокола. Распределение является артефактом дизайна теста, а не открытием о студентах.

Закон Гудхарта: Когда метрики становятся целями

Нахождение циклического цикла

Анализ Хэмминга раскрывает трехэтапное циклическое определение:

1. Разработать инструмент и процедуру калибровки.

2. Определить конструкцию как 'то, что этот инструмент измеряет.'

3. Сообщить, что конструкция имеет свойство распределения, встроенное в калибровку.

Найдите систему измерения или классификации в области, которую вы знаете, где работает одинаковый циклический цикл: инструмент или процедура разработаны для получения определенного результата, а затем этот результат сообщается как открытие об мире. Определите три шага (инструмент, определение, сообщенное открытие) и объясните, как циркулярность может ввести в заблуждение того, кто не знал историю калибровки.

Когда мера становится целью

Формулировка Хэмминга, до того как Гудхарт ее назвал: когда вы используете меру как цель, она перестает быть действительной мерой. Акт целеполагания портит метрику.

Механизм: до целеполагания метрика коррелирует с базовой ценностью. После целеполагания рациональные субъекты оптимизируют метрику напрямую. Корреляция нарушается, потому что самый легкий способ улучшить метрику часто состоит в том, чтобы отделить ее от базовой ценности.

Случаи Хэмминга:

- Подсчет трупов во Вьетнаме: используется как мера военного прогресса. Солдаты оптимизировали подсчет трупов, подсчитывая непроверяемые объекты. Метрика выросла; военный прогресс нет.

- Рост ВНП: используется как мера экономического благополучия. Рост ВНП может быть достигнут путем производства вещей с отрицательной стоимостью (очистка загрязнения, военное наращивание, строительство тюрем). Метрика отделена от благополучия.

- Тестовые баллы: используются как мера обучения. Школы учат к тесту. Баллы возрастают; понимание базового предмета может и не быть.

Решение Хэмминга: (1) регулярно менять метрику до того, как люди полностью ее оптимизируют; (2) одновременно использовать несколько метрик — сложнее оптимизировать все сразу; (3) никогда не полагаться на одну метрику для какого-либо важного решения.

Определить механизм коррупции

Программная организация измеряет производительность разработчика, подсчитывая строки кода (LOC), написанные в неделю. Первоначально LOC коррелирует с производительностью — активные разработчики пишут больше кода, чем неактивные.

Опишите конкретно, как метрика LOC портится, когда она используется как цель производительности. Назовите по крайней мере три конкретных поведения, которые рациональные разработчики приняли бы, чтобы оптимизировать LOC без улучшения производительности. Затем опишите альтернативу с несколькими метриками, которую было бы сложнее испортить, и объясните, почему это сложнее.

Проблема динамического диапазона

Хэмминг поднимает тонкую проблему измерения: рейтинговые шкалы имеют динамический диапазон, и большинство людей его не используют.

Пример: шкала 1-10, где 5 - среднее значение. Большинство оценщиков используют 4, 5 и 6, никогда не переходя к 1 или 9. Динамический диапазон их оценок фактически равен 3 (от 4 до 6), хотя шкала предоставляет 10.

Последствие: оценщик, который использует полный диапазон, имеет в 3 раза больше влияния на усредненную оценку, чем тот, который сжимает к середине. Если вы оцениваете то, что вам не нравится, как 2 (полный диапазон), в то время как другой оценщик дает то, что ему нравится, 6 (сжатый диапазон), среднее значение составляет 4 — ваше недовольство перевешивает их симпатию, даже если оба имеют равный голос в дизайне системы оценок.

Связь Хэмминга с информационной теорией: энтропия (средний сюрприз) распределения максимальна, когда распределение равномерно. Рейтинговая шкала, где все оценки используются одинаково, передает максимальную информацию. Шкала, где большинство оценок сконцентрированы на 5, передает очень мало — оценки несут почти никакой информации.

Его практический совет: используйте весь динамический диапазон любой шкалы, которая вам назначена. Если вам дана шкала от 1 до 10, не обращайтесь с ней как с 1 до 6. Это снижает ваше влияние и уменьшает информационное содержание ваших оценок.

Информация и динамический диапазон

Два профессора оценивают по шкале 0-100. Профессор A использует только диапазон 70-90 (сжимает до 20 баллов). Профессор B использует полный диапазон 0-100 (использует 100 баллов). Предположим, что распределение оценок каждого профессора равномерно в пределах их используемого диапазона.

Используя формулу энтропии H = log₂(n) для равномерного распределения по n равновероятным результатам, вычислите информационное содержание (в битах) одной оценки от каждого профессора. Во сколько раз больше информации содержит оценка профессора B, чем оценка профессора A? Что это означает для комитета по приему в аспирантуру, который получает оценки обоих профессоров?