un — 不可靠數據的幾何學

真實值μ的每次測量 x_i 可以寫成：x_i = μ + β + ε_i，其中β是系統誤差（偏差，在所有測量中保持不變），ε_i 是隨機誤差（每次測量不同，從均值為 0 的分佈中抽取）。

隨機誤差：E[ε_i] = 0，Var[ε_i] = σ²。樣本均值 x̄ = (1/n) Σ x_i 的期望值為 μ + β，方差為 σ²/n。當 n → ∞ 時，x̄ → μ + β（不是μ）。隨機誤差趨於零；偏差不會。

系統誤差：β ≠ 0，常數。任何次測量的均值都是 μ + β。要消除偏差，您需要校準（β 的獨立測量），而不是更多次重複。

幾何上：想像測量的分佈為鐘形曲線。隨機誤差控制寬度（方差）。系統誤差控制中心的位置（均值從真實值移動β）。

測量中陳述的不確定性通常是σ的估計（僅隨機誤差）。如果β很大且未被檢測到，所述的不確定性是無意義的——它量化了有偏差儀器中的噪聲。

誤差傳播：通過函數的不確定性

一個實驗室測量重力加速度常數 g。他們的儀器有系統校準誤差 β = +0.05 m/s²。他們的隨機測量誤差有標準差 σ = 0.02 m/s²。他們進行 n = 100 次測量。

真實值：g = 9.80 m/s²。

計算：(a) 他們樣本均值 x̄ 的期望值，(b) 他們樣本均值的標準誤差（僅由隨機誤差引起的 x̄ 的不確定性），(c) 他們將報告的 95% 置信區間（假設他們不知道偏差），以及 (d) 真實值是否在該區間內。展示所有計算。

當您從測量量 x 和 y 計算量 z = f(x, y) 時，它們的測量誤差會傳播到 z 中。

誤差傳播公式（一階泰勒展開）：

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

（這假設 x 和 y 誤差是獨立的。如果相關，添加 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y)。）

關鍵洞察：偏導數充當放大器。如果 ∂f/∂x 很大，x 中的小誤差會在 z 中產生大誤差。

這意味著選擇使偏導數最小化的計算方法是一個真正的工程目標——不只是算法便利。Hamming 在他的數值分析工作中敏銳地意識到了這一點。

您測量兩個長度：L₁ = 10.0 m ± 0.1 m（σ₁ = 0.1）和 L₂ = 5.0 m ± 0.2 m（σ₂ = 0.2）。您計算面積 A = L₁ × L₂。

使用不確定性傳播公式，計算：(a) A 的期望值，(b) 使用公式 σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂² 計算 σ_A，以及 (c) 相對不確定性 σ_A/A。展示 A 中的相對不確定性等於 √[(σ₁/L₁)² + (σ₂/L₂)²]。數值驗證。

卡方擬合優度檢驗：給定 n 個觀察值 O_i 和模型預測 E_i，計算：

χ² = Σ (O_i − E_i)² / E_i

如果模型正確且測量的方差為 E_i，則 χ² 的期望值約為 ν =（數據點數）−（擬合參數數），稱為自由度。

如果數據以預期的散射量擬合模型，約化卡方 χ²/ν 應約為 1.0。

- χ²/ν >> 1：數據變化超出預期——模型錯誤，或不確定性被低估。

- χ²/ν << 1：數據變化少於預期——可疑地乾淨。

可疑情況：如果您的測量有 σ = 0.1，但數據都落在模型曲線的 ±0.01 內，有人選擇性地保留了「好的」測量。這是確認偏差：丟棄不符的數據並保留符合的數據。

Hamming 引用了 Millikan 的油滴實驗：獲得諾貝爾獎的電子電荷測量。後來對 Millikan 實驗室筆記本的分析表明，他應用了未記錄的判斷來丟棄「異常值」測量——被保留的測量擬合可疑地很好。

一個學生將線性模型 y = ax + b 擬合到 10 個數據點，估計 2 個參數（a 和 b）。每個點的陳述測量不確定性為 σ = 0.5。擬合的殘差（O_i − E_i）為：0.08、−0.12、0.05、−0.09、0.11、−0.07、0.04、−0.03、0.10、−0.06。

計算 χ²、自由度 ν 和約化卡方 χ²/ν。然後解釋結果：這個數據與模型擬合好、差，還是可疑地好？作為數據分析師，您接下來會做什麼？