un — Геометрія ненадійних даних

un

гість

1 / ?

Середнє значення, дисперсія та систематична помилка

Кожне вимірювання x_i істинного значення μ можна записати як: x_i = μ + β + ε_i, де β — систематична помилка (зміщення, постійна в усіх вимірюваннях), а ε_i — випадкова помилка (різна для кожного вимірювання, витягнута з розподілу з середнім 0).

Випадкова помилка: E[ε_i] = 0, Var[ε_i] = σ². Вибіркове середнє x̄ = (1/n) Σ x_i має очікуване значення μ + β та дисперсію σ²/n. При n → ∞, x̄ → μ + β (не μ). Випадкова помилка прямує до нуля; систематична помилка — ні.

Систематична помилка: β ≠ 0, постійна. Середнє будь-якої кількості вимірювань дорівнює μ + β. Щоб усунути систематичну помилку, потрібна калібрування (незалежне вимірювання β), а не більше повторень.

Геометрично: уявіть розподіл вимірювань як дзвоніста крива. Випадкова помилка контролює ширину (дисперсію). Систематична помилка контролює розташування центру (середнє зміщено від істинного значення на β).

Заявлена невизначеність вимірювання зазвичай є оцінкою σ (лише випадкова помилка). Якщо β велика і невиявлена, заявлена невизначеність безсенсовна — вона кількісно визначає шум у зміщеному приладі.

Поширення помилки: невизначеність через функції

Розрахунок систематичної помилки проти дисперсії

Лабораторія вимірює гравітаційну постійну g. Їхній прилад має систематичну помилку калібрування β = +0,05 м/с². Їхня випадкова помилка вимірювання має стандартне відхилення σ = 0,02 м/с². Вони роблять n = 100 вимірювань.

Істинне значення: g = 9,80 м/с².

Розраховуйте: (a) очікуване значення їхнього вибіркового середнього x̄, (b) стандартну помилку їхнього вибіркового середнього (невизначеність у x̄ через випадкову помилку лише), (c) 95% довірчий інтервал, який вони повідомлять (припускаючи, що вони не знають про систематичну помилку), та (d) чи лежить істинне значення в цьому інтервалі. Покажіть усі розрахунки.

Як помилки рухаються через розрахунки

Коли ви обчислюєте величину z = f(x, y) з виміряних величин x та y, їхні помилки вимірювання поширюються в z.

Формула поширення невизначеності (розширення Тейлора першого порядку):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Це припускає, що помилки x та y є незалежними. Якщо корельовані, додайте 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Ключне розуміння: часткові похідні діють як підсилювачі. Якщо ∂f/∂x великий, малі помилки в x дають великі помилки в z.

Це означає, що вибір методу розрахунку, який мінімізує часткові похідні, — це реальна інженерна мета — не лише алгоритмічна зручність. Геммінг гостро розумів це у своїй роботі з чисельного аналізу.

Поширення через добуток

Ви вимірюєте дві довжини: L₁ = 10,0 м ± 0,1 м (σ₁ = 0,1) та L₂ = 5,0 м ± 0,2 м (σ₂ = 0,2). Ви обчислюєте площу A = L₁ × L₂.

Використовуючи формулу поширення невизначеності, розраховуйте: (a) очікуване значення A, (b) σ_A за формулою σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², та (c) відносну невизначеність σ_A/A. Покажіть, що відносна невизначеність у A дорівнює √[(σ₁/L₁)² + (σ₂/L₂)²]. Перевірте це чисельно.

Коли дані надто добре підходять

Критерій хі-квадрат відповідності: маючи n спостережень O_i та передбачень моделі E_i, обчисліть:

χ² = Σ (O_i − E_i)² / E_i

Якщо модель коректна і вимірювання мають дисперсію E_i, очікуване значення χ² приблизно дорівнює ν = (кількість точок даних) − (кількість підібраних параметрів), що називається кількістю ступенів вільності.

Зведений хі-квадрат χ²/ν повинен бути приблизно 1,0 якщо дані підходять до моделі з очікуваним розсіюванням.

- χ²/ν >> 1: дані варіюють більше ніж очікується — модель неправильна, або невизначеності недооцінені.

- χ²/ν << 1: дані варіюють менше ніж очікується — підозріло чисті.

Підозрілий випадок: якщо ваші вимірювання мають σ = 0,1 але дані всі лежать в межах ±0,01 від кривої моделі, хтось вибірково зберіг 'хорошаї' вимірювання. Це упередженість підтвердження: відкидання даних, які не узгоджуються, і збереження даних, які узгоджуються.

Геммінг посилається на експеримент з масляною краплею Мілікена: нобелівське визнання вимірювання заряду електрона. Пізніший аналіз лабораторних записників Мілікена виявив, що він застосував недокументовану методику для відкидання вимірювань-'викидів' — та збережені вимірювання підходили підозріло добре.

Розрахувати та інтерпретувати зведений хі-квадрат

Студент підбирає лінійну модель y = ax + b до 10 точок даних, оцінюючи 2 параметри (a та b). Заявлена невизначеність вимірювання для кожної точки σ = 0,5. Залишки (O_i − E_i) від підгонки: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.

Розраховуйте χ², кількість ступенів вільності ν, та зведений хі-квадрат χ²/ν. Потім інтерпретуйте результат: чи дані добре підходять до моделі, погано, чи підозріло добре? Що б ви зробили далі як аналітик даних?