均值、方差與偏差
真實值μ的每次測量 x_i 可以寫成:x_i = μ + β + ε_i,其中β是系統誤差(偏差,在所有測量中保持不變),ε_i 是隨機誤差(每次測量不同,從均值為 0 的分佈中抽取)。
隨機誤差:E[ε_i] = 0,Var[ε_i] = σ²。樣本均值 x̄ = (1/n) Σ x_i 的期望值為 μ + β,方差為 σ²/n。當 n → ∞ 時,x̄ → μ + β(不是μ)。隨機誤差趨於零;偏差不會。
系統誤差:β ≠ 0,常數。任何次測量的均值都是 μ + β。要消除偏差,您需要校準(β 的獨立測量),而不是更多次重複。
幾何上:想像測量的分佈為鐘形曲線。隨機誤差控制寬度(方差)。系統誤差控制中心的位置(均值從真實值移動β)。
測量中陳述的不確定性通常是σ的估計(僅隨機誤差)。如果β很大且未被檢測到,所述的不確定性是無意義的——它量化了有偏差儀器中的噪聲。
偏差與方差計算
一個實驗室測量重力加速度常數 g。他們的儀器有系統校準誤差 β = +0.05 m/s²。他們的隨機測量誤差有標準差 σ = 0.02 m/s²。他們進行 n = 100 次測量。
真實值:g = 9.80 m/s²。
誤差如何通過計算傳播
當您從測量量 x 和 y 計算量 z = f(x, y) 時,它們的測量誤差會傳播到 z 中。
誤差傳播公式(一階泰勒展開):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(這假設 x 和 y 誤差是獨立的。如果相關,添加 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y)。)
關鍵洞察:偏導數充當放大器。如果 ∂f/∂x 很大,x 中的小誤差會在 z 中產生大誤差。
這意味著選擇使偏導數最小化的計算方法是一個真正的工程目標——不只是算法便利。Hamming 在他的數值分析工作中敏銳地意識到了這一點。
通過乘積的傳播
您測量兩個長度:L₁ = 10.0 m ± 0.1 m(σ₁ = 0.1)和 L₂ = 5.0 m ± 0.2 m(σ₂ = 0.2)。您計算面積 A = L₁ × L₂。
當數據擬合太好時
卡方擬合優度檢驗:給定 n 個觀察值 O_i 和模型預測 E_i,計算:
χ² = Σ (O_i − E_i)² / E_i
如果模型正確且測量的方差為 E_i,則 χ² 的期望值約為 ν =(數據點數)−(擬合參數數),稱為自由度。
如果數據以預期的散射量擬合模型,約化卡方 χ²/ν 應約為 1.0。
- χ²/ν >> 1:數據變化超出預期——模型錯誤,或不確定性被低估。
- χ²/ν << 1:數據變化少於預期——可疑地乾淨。
可疑情況:如果您的測量有 σ = 0.1,但數據都落在模型曲線的 ±0.01 內,有人選擇性地保留了「好的」測量。這是確認偏差:丟棄不符的數據並保留符合的數據。
Hamming 引用了 Millikan 的油滴實驗:獲得諾貝爾獎的電子電荷測量。後來對 Millikan 實驗室筆記本的分析表明,他應用了未記錄的判斷來丟棄「異常值」測量——被保留的測量擬合可疑地很好。
計算並解釋約化卡方
一個學生將線性模型 y = ax + b 擬合到 10 個數據點,估計 2 個參數(a 和 b)。每個點的陳述測量不確定性為 σ = 0.5。擬合的殘差(O_i − E_i)為:0.08、−0.12、0.05、−0.09、0.11、−0.07、0.04、−0.03、0.10、−0.06。