un — 신뢰할 수 없는 데이터의 기하학

un

게스트

1 / ?

수업 목록으로

평균, 분산, 그리고 편향

참값 μ의 각 측정값 x_i는 다음과 같이 쓸 수 있습니다: x_i = μ + β + ε_i. 여기서 β는 체계적 오차(편향, 모든 측정에서 동일)이고 ε_i는 임의의 오차(각 측정마다 다르며, 평균이 0인 분포에서 나옴)입니다.

임의의 오차: E[ε_i] = 0, Var[ε_i] = σ². 표본 평균 x̄ = (1/n) Σ x_i는 기댓값 μ + β와 분산 σ²/n을 가집니다. n → ∞일 때, x̄ → μ + β (μ가 아님). 임의의 오차는 0으로 수렴하지만 편향은 그렇지 않습니다.

체계적 오차: β ≠ 0, 상수. 아무리 많은 측정을 하더라도 평균은 μ + β입니다. 편향을 제거하려면 보정(β를 독립적으로 측정)이 필요하며, 더 많은 반복 측정으로는 제거할 수 없습니다.

기하학적으로: 측정값의 분포를 종 모양 곡선으로 상상해 보세요. 임의의 오차는 너비(분산)를 결정합니다. 체계적 오차는 중심의 위치를 결정합니다(평균이 참값에서 β만큼 이동).

측정값의 기술된 불확실성은 보통 σ(임의의 오차만)의 추정치입니다. β가 크고 감지되지 않으면 기술된 불확실성은 무의미합니다 — 편향된 기기의 잡음만 정량화합니다.

Error Propagation: Uncertainty Through Functions

편향 대 분산 계산

한 실험실이 중력 상수 g를 측정합니다. 그들의 기기는 체계적 보정 오차 β = +0.05 m/s²를 가지고 있습니다. 그들의 임의의 측정 오차는 표준 편차 σ = 0.02 m/s²를 가집니다. 그들은 n = 100번의 측정을 합니다.

참값: g = 9.80 m/s².

계산하시오: (a) 표본 평균 x̄의 기댓값, (b) 표본 평균의 표준 오차(임의의 오차로 인한 x̄의 불확실성), (c) 그들이 기술할 95% 신뢰 구간(편향을 모르고 있다고 가정), (d) 참값이 그 구간 내에 있는지 여부. 모든 계산을 보이시오.

오차가 계산을 통해 어떻게 전파되는지

측정된 량 x와 y로부터 량 z = f(x, y)를 계산할 때, 그들의 측정 오차는 z로 전파됩니다.

오차 전파 공식(1차 테일러 전개):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(이것은 x와 y의 오차가 독립적임을 가정합니다. 상관되어 있다면, 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y)를 더하세요.)

주요 통찰: 부분 미분은 증폭기로 작용합니다. ∂f/∂x이 크면, x의 작은 오차가 z의 큰 오차를 만듭니다.

이는 부분 미분을 최소화하는 계산 방법을 선택하는 것이 실제 공학 목표 — 단지 알고리즘상의 편의가 아님 — 를 의미합니다. Hamming은 그의 수치 해석 작업에서 이에 대해 매우 민감했습니다.

곱셈을 통한 전파

두 길이를 측정합니다: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) 그리고 L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). 면적 A = L₁ × L₂을 계산합니다.

불확실성 전파 공식을 사용하여 계산하시오: (a) A의 기댓값, (b) 공식 σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂²를 사용한 σ_A, (c) 상대 불확실성 σ_A/A. A의 상대 불확실성이 √[(σ₁/L₁)² + (σ₂/L₂)²]과 같음을 보이세요. 수치적으로 검증하세요.

데이터가 너무 잘 맞을 때

카이제곱 적합도 검정: n개의 관측값 O_i와 모델 예측값 E_i가 주어졌을 때, 다음을 계산하세요:

χ² = Σ (O_i − E_i)² / E_i

모델이 올바르고 측정값이 분산 E_i를 가지면, χ²의 기댓값은 대략 ν = (데이터 점의 개수) − (적합된 매개변수의 개수)이며, 이를 자유도라고 합니다.

감소된 카이제곱 χ²/ν은 데이터가 예상된 산포와 함께 모델에 맞으면 대략 1.0이어야 합니다.

- χ²/ν >> 1: 데이터가 예상보다 더 많이 변함 — 모델이 틀렸거나 불확실성이 과소평가됨.

- χ²/ν << 1: 데이터가 예상보다 덜 변함 — 의심스럽게 깨끗함.

의심스러운 경우: 당신의 측정값이 σ = 0.1을 가지지만 데이터가 모두 모델 곡선의 ±0.01 내에 있다면, 누군가 '좋은' 측정값만 선택적으로 유지했습니다. 이것은 확증 편향입니다: 동의하지 않는 데이터를 버리고 동의하는 데이터를 유지하는 것입니다.

Hamming은 Millikan의 유적 실험을 인용합니다: 전자 전하의 노벨상 수상 측정. 나중에 Millikan의 실험실 노트를 분석한 결과 그가 '이상값' 측정을 버리기 위해 문서화되지 않은 판단을 적용했음이 드러났습니다 — 그리고 유지된 측정값은 의심스럽게 잘 맞았습니다.

감소된 카이제곱 계산 및 해석

학생이 10개의 데이터 점에 선형 모델 y = ax + b를 적합하며, 2개의 매개변수(a와 b)를 추정합니다. 각 점의 기술된 측정 불확실성은 σ = 0.5입니다. 적합으로부터의 잔차(O_i − E_i)는: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06입니다.

χ², 자유도 ν, 그리고 감소된 카이제곱 χ²/ν을 계산하세요. 그 다음 결과를 해석하세요: 이 데이터가 모델에 잘 맞습니까, 잘 맞지 않습니까, 아니면 의심스럽게 잘 맞습니까? 데이터 분석가로서 다음에 무엇을 하시겠습니까?