Среднее, дисперсия и смещение
Каждое измерение x_i истинного значения μ может быть записано как: x_i = μ + β + ε_i, где β — систематическая ошибка (смещение, постоянное во всех измерениях), а ε_i — случайная ошибка (разная для каждого измерения, взятая из распределения со средним 0).
Случайная ошибка: E[ε_i] = 0, Var[ε_i] = σ². Выборочное среднее x̄ = (1/n) Σ x_i имеет ожидаемое значение μ + β и дисперсию σ²/n. При n → ∞, x̄ → μ + β (не μ). Случайная ошибка стремится к нулю; смещение — нет.
Систематическая ошибка: β ≠ 0, постоянная. Среднее значение любого количества измерений равно μ + β. Чтобы устранить смещение, вам нужна калибровка (независимое измерение β), а не дополнительные повторения.
Геометрически: представьте распределение измерений как кривую Гаусса. Случайная ошибка управляет шириной (дисперсией). Систематическая ошибка управляет положением центра (среднее смещено от истинного значения на β).
Заявленная неопределённость измерения обычно представляет собой оценку σ (только случайная ошибка). Если β велико и не обнаружено, заявленная неопределённость бессмысленна — она количественно определяет шум в смещённом приборе.
Расчёт смещения и дисперсии
Лаборатория измеряет гравитационную постоянную g. Их прибор имеет систематическую ошибку калибровки β = +0,05 м/с². Их случайная ошибка измерения имеет стандартное отклонение σ = 0,02 м/с². Они проводят n = 100 измерений.
Истинное значение: g = 9,80 м/с².
Как ошибки проходят через вычисления
Когда вы вычисляете величину z = f(x, y) из измеренных величин x и y, их ошибки измерения распространяются на z.
Формула распространения ошибок (разложение Тейлора первого порядка):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(Это предполагает, что ошибки x и y независимы. Если коррелированы, добавьте 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)
Ключный вывод: частные производные действуют как усилители. Если ∂f/∂x велико, небольшие ошибки в x производят большие ошибки в z.
Это означает, что выбор метода расчёта, который минимизирует частные производные, — это реальная инженерная цель, а не просто удобство алгоритма. Хэмминг прекрасно осознавал это в своей работе по численному анализу.
Распространение через произведение
Вы измеряете две длины: L₁ = 10,0 м ± 0,1 м (σ₁ = 0,1) и L₂ = 5,0 м ± 0,2 м (σ₂ = 0,2). Вы вычисляете площадь A = L₁ × L₂.
Когда данные подходят слишком хорошо
Критерий согласия хи-квадрат: учитывая n наблюдений O_i и предсказания модели E_i, вычислите:
χ² = Σ (O_i − E_i)² / E_i
Если модель верна и измерения имеют дисперсию E_i, ожидаемое значение χ² примерно равно ν = (количество точек данных) − (количество подобранных параметров), называемое степенями свободы.
Приведённый хи-квадрат χ²/ν должен быть примерно 1,0, если данные подходят к модели с ожидаемым количеством разброса.
- χ²/ν >> 1: данные варьируются больше, чем ожидалось — модель неверна или неопределённости недооценены.
- χ²/ν << 1: данные варьируются меньше, чем ожидалось — подозрительно чисто.
Подозрительный случай: если ваши измерения имеют σ = 0,1, но все данные падают в пределах ±0,01 от кривой модели, кто-то селективно сохранил 'хорошие' измерения. Это предвзятость подтверждения: отбрасывание данных, которые не согласуются, и сохранение данных, которые согласуются.
Хэмминг ссылается на эксперимент с масляной каплей Миллика: нобелевское измерение заряда электрона. Позднейший анализ лабораторных записей Миллика показал, что он применял недокументированное суждение для отбрасывания 'выбросов' измерений — и сохранённые измерения подходили подозрительно хорошо.
Вычислить и интерпретировать приведённый хи-квадрат
Студент подбирает линейную модель y = ax + b к 10 точкам данных, оценивая 2 параметра (a и b). Заявленная неопределённость измерения для каждой точки составляет σ = 0,5. Остатки (O_i − E_i) от подгонки: 0,08; −0,12; 0,05; −0,09; 0,11; −0,07; 0,04; −0,03; 0,10; −0,06.