평균, 분산, 그리고 편향
참값 μ의 각 측정값 x_i는 다음과 같이 쓸 수 있습니다: x_i = μ + β + ε_i. 여기서 β는 체계적 오차(편향, 모든 측정에서 동일)이고 ε_i는 임의의 오차(각 측정마다 다르며, 평균이 0인 분포에서 나옴)입니다.
임의의 오차: E[ε_i] = 0, Var[ε_i] = σ². 표본 평균 x̄ = (1/n) Σ x_i는 기댓값 μ + β와 분산 σ²/n을 가집니다. n → ∞일 때, x̄ → μ + β (μ가 아님). 임의의 오차는 0으로 수렴하지만 편향은 그렇지 않습니다.
체계적 오차: β ≠ 0, 상수. 아무리 많은 측정을 하더라도 평균은 μ + β입니다. 편향을 제거하려면 보정(β를 독립적으로 측정)이 필요하며, 더 많은 반복 측정으로는 제거할 수 없습니다.
기하학적으로: 측정값의 분포를 종 모양 곡선으로 상상해 보세요. 임의의 오차는 너비(분산)를 결정합니다. 체계적 오차는 중심의 위치를 결정합니다(평균이 참값에서 β만큼 이동).
측정값의 기술된 불확실성은 보통 σ(임의의 오차만)의 추정치입니다. β가 크고 감지되지 않으면 기술된 불확실성은 무의미합니다 — 편향된 기기의 잡음만 정량화합니다.
편향 대 분산 계산
한 실험실이 중력 상수 g를 측정합니다. 그들의 기기는 체계적 보정 오차 β = +0.05 m/s²를 가지고 있습니다. 그들의 임의의 측정 오차는 표준 편차 σ = 0.02 m/s²를 가집니다. 그들은 n = 100번의 측정을 합니다.
참값: g = 9.80 m/s².
오차가 계산을 통해 어떻게 전파되는지
측정된 량 x와 y로부터 량 z = f(x, y)를 계산할 때, 그들의 측정 오차는 z로 전파됩니다.
오차 전파 공식(1차 테일러 전개):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(이것은 x와 y의 오차가 독립적임을 가정합니다. 상관되어 있다면, 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y)를 더하세요.)
주요 통찰: 부분 미분은 증폭기로 작용합니다. ∂f/∂x이 크면, x의 작은 오차가 z의 큰 오차를 만듭니다.
이는 부분 미분을 최소화하는 계산 방법을 선택하는 것이 실제 공학 목표 — 단지 알고리즘상의 편의가 아님 — 를 의미합니다. Hamming은 그의 수치 해석 작업에서 이에 대해 매우 민감했습니다.
곱셈을 통한 전파
두 길이를 측정합니다: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) 그리고 L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). 면적 A = L₁ × L₂을 계산합니다.
데이터가 너무 잘 맞을 때
카이제곱 적합도 검정: n개의 관측값 O_i와 모델 예측값 E_i가 주어졌을 때, 다음을 계산하세요:
χ² = Σ (O_i − E_i)² / E_i
모델이 올바르고 측정값이 분산 E_i를 가지면, χ²의 기댓값은 대략 ν = (데이터 점의 개수) − (적합된 매개변수의 개수)이며, 이를 자유도라고 합니다.
감소된 카이제곱 χ²/ν은 데이터가 예상된 산포와 함께 모델에 맞으면 대략 1.0이어야 합니다.
- χ²/ν >> 1: 데이터가 예상보다 더 많이 변함 — 모델이 틀렸거나 불확실성이 과소평가됨.
- χ²/ν << 1: 데이터가 예상보다 덜 변함 — 의심스럽게 깨끗함.
의심스러운 경우: 당신의 측정값이 σ = 0.1을 가지지만 데이터가 모두 모델 곡선의 ±0.01 내에 있다면, 누군가 '좋은' 측정값만 선택적으로 유지했습니다. 이것은 확증 편향입니다: 동의하지 않는 데이터를 버리고 동의하는 데이터를 유지하는 것입니다.
Hamming은 Millikan의 유적 실험을 인용합니다: 전자 전하의 노벨상 수상 측정. 나중에 Millikan의 실험실 노트를 분석한 결과 그가 '이상값' 측정을 버리기 위해 문서화되지 않은 판단을 적용했음이 드러났습니다 — 그리고 유지된 측정값은 의심스럽게 잘 맞았습니다.
감소된 카이제곱 계산 및 해석
학생이 10개의 데이터 점에 선형 모델 y = ax + b를 적합하며, 2개의 매개변수(a와 b)를 추정합니다. 각 점의 기술된 측정 불확실성은 σ = 0.5입니다. 적합으로부터의 잔차(O_i − E_i)는: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06입니다.