Середнє значення, дисперсія та систематична помилка
Кожне вимірювання x_i істинного значення μ можна записати як: x_i = μ + β + ε_i, де β — систематична помилка (зміщення, постійна в усіх вимірюваннях), а ε_i — випадкова помилка (різна для кожного вимірювання, витягнута з розподілу з середнім 0).
Випадкова помилка: E[ε_i] = 0, Var[ε_i] = σ². Вибіркове середнє x̄ = (1/n) Σ x_i має очікуване значення μ + β та дисперсію σ²/n. При n → ∞, x̄ → μ + β (не μ). Випадкова помилка прямує до нуля; систематична помилка — ні.
Систематична помилка: β ≠ 0, постійна. Середнє будь-якої кількості вимірювань дорівнює μ + β. Щоб усунути систематичну помилку, потрібна калібрування (незалежне вимірювання β), а не більше повторень.
Геометрично: уявіть розподіл вимірювань як дзвоніста крива. Випадкова помилка контролює ширину (дисперсію). Систематична помилка контролює розташування центру (середнє зміщено від істинного значення на β).
Заявлена невизначеність вимірювання зазвичай є оцінкою σ (лише випадкова помилка). Якщо β велика і невиявлена, заявлена невизначеність безсенсовна — вона кількісно визначає шум у зміщеному приладі.
Розрахунок систематичної помилки проти дисперсії
Лабораторія вимірює гравітаційну постійну g. Їхній прилад має систематичну помилку калібрування β = +0,05 м/с². Їхня випадкова помилка вимірювання має стандартне відхилення σ = 0,02 м/с². Вони роблять n = 100 вимірювань.
Істинне значення: g = 9,80 м/с².
Як помилки рухаються через розрахунки
Коли ви обчислюєте величину z = f(x, y) з виміряних величин x та y, їхні помилки вимірювання поширюються в z.
Формула поширення невизначеності (розширення Тейлора першого порядку):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(Це припускає, що помилки x та y є незалежними. Якщо корельовані, додайте 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)
Ключне розуміння: часткові похідні діють як підсилювачі. Якщо ∂f/∂x великий, малі помилки в x дають великі помилки в z.
Це означає, що вибір методу розрахунку, який мінімізує часткові похідні, — це реальна інженерна мета — не лише алгоритмічна зручність. Геммінг гостро розумів це у своїй роботі з чисельного аналізу.
Поширення через добуток
Ви вимірюєте дві довжини: L₁ = 10,0 м ± 0,1 м (σ₁ = 0,1) та L₂ = 5,0 м ± 0,2 м (σ₂ = 0,2). Ви обчислюєте площу A = L₁ × L₂.
Коли дані надто добре підходять
Критерій хі-квадрат відповідності: маючи n спостережень O_i та передбачень моделі E_i, обчисліть:
χ² = Σ (O_i − E_i)² / E_i
Якщо модель коректна і вимірювання мають дисперсію E_i, очікуване значення χ² приблизно дорівнює ν = (кількість точок даних) − (кількість підібраних параметрів), що називається кількістю ступенів вільності.
Зведений хі-квадрат χ²/ν повинен бути приблизно 1,0 якщо дані підходять до моделі з очікуваним розсіюванням.
- χ²/ν >> 1: дані варіюють більше ніж очікується — модель неправильна, або невизначеності недооцінені.
- χ²/ν << 1: дані варіюють менше ніж очікується — підозріло чисті.
Підозрілий випадок: якщо ваші вимірювання мають σ = 0,1 але дані всі лежать в межах ±0,01 від кривої моделі, хтось вибірково зберіг 'хорошаї' вимірювання. Це упередженість підтвердження: відкидання даних, які не узгоджуються, і збереження даних, які узгоджуються.
Геммінг посилається на експеримент з масляною краплею Мілікена: нобелівське визнання вимірювання заряду електрона. Пізніший аналіз лабораторних записників Мілікена виявив, що він застосував недокументовану методику для відкидання вимірювань-'викидів' — та збережені вимірювання підходили підозріло добре.
Розрахувати та інтерпретувати зведений хі-квадрат
Студент підбирає лінійну модель y = ax + b до 10 точок даних, оцінюючи 2 параметри (a та b). Заявлена невизначеність вимірювання для кожної точки σ = 0,5. Залишки (O_i − E_i) від підгонки: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.