un — Геометрия ненадёжных данных

un

гость

1 / ?

Среднее, дисперсия и смещение

Каждое измерение x_i истинного значения μ может быть записано как: x_i = μ + β + ε_i, где β — систематическая ошибка (смещение, постоянное во всех измерениях), а ε_i — случайная ошибка (разная для каждого измерения, взятая из распределения со средним 0).

Случайная ошибка: E[ε_i] = 0, Var[ε_i] = σ². Выборочное среднее x̄ = (1/n) Σ x_i имеет ожидаемое значение μ + β и дисперсию σ²/n. При n → ∞, x̄ → μ + β (не μ). Случайная ошибка стремится к нулю; смещение — нет.

Систематическая ошибка: β ≠ 0, постоянная. Среднее значение любого количества измерений равно μ + β. Чтобы устранить смещение, вам нужна калибровка (независимое измерение β), а не дополнительные повторения.

Геометрически: представьте распределение измерений как кривую Гаусса. Случайная ошибка управляет шириной (дисперсией). Систематическая ошибка управляет положением центра (среднее смещено от истинного значения на β).

Заявленная неопределённость измерения обычно представляет собой оценку σ (только случайная ошибка). Если β велико и не обнаружено, заявленная неопределённость бессмысленна — она количественно определяет шум в смещённом приборе.

Error Propagation: Uncertainty Through Functions

Расчёт смещения и дисперсии

Лаборатория измеряет гравитационную постоянную g. Их прибор имеет систематическую ошибку калибровки β = +0,05 м/с². Их случайная ошибка измерения имеет стандартное отклонение σ = 0,02 м/с². Они проводят n = 100 измерений.

Истинное значение: g = 9,80 м/с².

Рассчитайте: (a) ожидаемое значение их выборочного среднего x̄, (b) стандартную ошибку их выборочного среднего (неопределённость в x̄ из-за только случайной ошибки), (c) доверительный интервал 95%, который они будут сообщать (предполагая, что они не знают о смещении), и (d) находится ли истинное значение внутри этого интервала. Покажите все расчёты.

Как ошибки проходят через вычисления

Когда вы вычисляете величину z = f(x, y) из измеренных величин x и y, их ошибки измерения распространяются на z.

Формула распространения ошибок (разложение Тейлора первого порядка):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Это предполагает, что ошибки x и y независимы. Если коррелированы, добавьте 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Ключный вывод: частные производные действуют как усилители. Если ∂f/∂x велико, небольшие ошибки в x производят большие ошибки в z.

Это означает, что выбор метода расчёта, который минимизирует частные производные, — это реальная инженерная цель, а не просто удобство алгоритма. Хэмминг прекрасно осознавал это в своей работе по численному анализу.

Распространение через произведение

Вы измеряете две длины: L₁ = 10,0 м ± 0,1 м (σ₁ = 0,1) и L₂ = 5,0 м ± 0,2 м (σ₂ = 0,2). Вы вычисляете площадь A = L₁ × L₂.

Используя формулу распространения неопределённости, рассчитайте: (a) ожидаемое значение A, (b) σ_A, используя формулу σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², и (c) относительную неопределённость σ_A/A. Покажите, что относительная неопределённость в A равна √[(σ₁/L₁)² + (σ₂/L₂)²]. Проверьте это численно.

Когда данные подходят слишком хорошо

Критерий согласия хи-квадрат: учитывая n наблюдений O_i и предсказания модели E_i, вычислите:

χ² = Σ (O_i − E_i)² / E_i

Если модель верна и измерения имеют дисперсию E_i, ожидаемое значение χ² примерно равно ν = (количество точек данных) − (количество подобранных параметров), называемое степенями свободы.

Приведённый хи-квадрат χ²/ν должен быть примерно 1,0, если данные подходят к модели с ожидаемым количеством разброса.

- χ²/ν >> 1: данные варьируются больше, чем ожидалось — модель неверна или неопределённости недооценены.

- χ²/ν << 1: данные варьируются меньше, чем ожидалось — подозрительно чисто.

Подозрительный случай: если ваши измерения имеют σ = 0,1, но все данные падают в пределах ±0,01 от кривой модели, кто-то селективно сохранил 'хорошие' измерения. Это предвзятость подтверждения: отбрасывание данных, которые не согласуются, и сохранение данных, которые согласуются.

Хэмминг ссылается на эксперимент с масляной каплей Миллика: нобелевское измерение заряда электрона. Позднейший анализ лабораторных записей Миллика показал, что он применял недокументированное суждение для отбрасывания 'выбросов' измерений — и сохранённые измерения подходили подозрительно хорошо.

Вычислить и интерпретировать приведённый хи-квадрат

Студент подбирает линейную модель y = ax + b к 10 точкам данных, оценивая 2 параметра (a и b). Заявленная неопределённость измерения для каждой точки составляет σ = 0,5. Остатки (O_i − E_i) от подгонки: 0,08; −0,12; 0,05; −0,09; 0,11; −0,07; 0,04; −0,03; 0,10; −0,06.

Рассчитайте χ², степени свободы ν и приведённый хи-квадрат χ²/ν. Затем интерпретируйте результат: подходят ли эти данные к модели хорошо, плохо или подозрительно хорошо? Что вы будете делать дальше как аналитик данных?