English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

访客
1 / ?
返回课程列表

均值、方差和偏差

对真实值 μ 的每次测量 x_i 都可以写成:x_i = μ + β + ε_i,其中 β 是系统误差(偏差,在多次测量中保持常数),ε_i 是随机误差(每次测量不同,从均值为 0 的分布中抽取)。

随机误差:E[ε_i] = 0,Var[ε_i] = σ²。样本均值 x̄ = (1/n) Σ x_i 的期望值为 μ + β,方差为 σ²/n。当 n → ∞ 时,x̄ → μ + β(不是 μ)。随机误差趋于零;偏差则不会。

系统误差:β ≠ 0,常数。任何数量测量的均值都是 μ + β。要消除偏差,需要校准(对 β 的独立测量),而不是更多的重复。

从几何上:将测量的分布想象为一条钟形曲线。随机误差控制宽度(方差)。系统误差控制中心的位置(均值从真实值偏移 β)。

测量中陈述的不确定性通常是 σ 的估计(仅随机误差)。如果 β 很大且未被检测到,陈述的不确定性就没有意义——它量化的是有偏差的仪器中的噪声。

误差传播:通过函数的不确定性

偏差与方差计算

一个实验室测量重力加速度常数 g。他们的仪器有一个系统校准误差 β = +0.05 m/s²。他们的随机测量误差有标准差 σ = 0.02 m/s²。他们进行了 n = 100 次测量。

真实值:g = 9.80 m/s²。

计算:(a) 样本均值 x̄ 的期望值,(b) 样本均值的标准误差(仅由随机误差引起的 x̄ 的不确定性),(c) 他们会报告的 95% 置信区间(假设他们不知道偏差),(d) 真实值是否在该区间内。显示所有计算。

误差如何通过计算传播

当你从测量量 x 和 y 计算一个量 z = f(x, y) 时,它们的测量误差传播到 z。

误差传播公式(一阶泰勒展开):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(这假设 x 和 y 的误差是独立的。如果相关,添加 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y)。)

关键洞察:偏导数充当放大器。如果 ∂f/∂x 很大,x 中的小误差会在 z 中产生大误差。

这意味着选择最小化偏导数的计算方法是一个真实的工程目标——不仅仅是算法便利性。Hamming 在他的数值分析工作中敏锐地意识到这一点。

通过乘积的传播

你测量两个长度:L₁ = 10.0 m ± 0.1 m(σ₁ = 0.1)和 L₂ = 5.0 m ± 0.2 m(σ₂ = 0.2)。你计算面积 A = L₁ × L₂。

使用不确定性传播公式,计算:(a) A 的期望值,(b) 使用公式 σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂² 的 σ_A,(c) 相对不确定性 σ_A/A。证明 A 中的相对不确定性等于 √[(σ₁/L₁)² + (σ₂/L₂)²]。以数值方式验证此。

当数据拟合过好时

卡方拟合优度检验:给定 n 个观测值 O_i 和模型预测 E_i,计算:

χ² = Σ (O_i − E_i)² / E_i

如果模型正确且测量的方差为 E_i,χ² 的期望值大约为 ν = (数据点数) − (拟合参数数),称为自由度。

如果数据以预期的散射量拟合模型,减少的卡方 χ²/ν 应约为 1.0。

- χ²/ν >> 1:数据变化超过预期——模型错误,或不确定性被低估。

- χ²/ν << 1:数据变化少于预期——可疑的干净

可疑的情况:如果你的测量有 σ = 0.1,但数据都在模型曲线的 ±0.01 范围内,某人选择性地保留了'好的'测量。这是确认偏差:丢弃不同意的数据并保留同意的数据。

Hamming 引用 Millikan 的油滴实验:诺贝尔奖获胜的电子电荷测量。对 Millikan 实验室笔记本的后期分析表明,他应用了未记录的判断来丢弃'离群值'测量——而保留的测量拟合可疑地好。

计算和解释减少的卡方值

一个学生将线性模型 y = ax + b 拟合到 10 个数据点,估计 2 个参数(a 和 b)。每个点的陈述测量不确定性是 σ = 0.5。拟合的残差(O_i − E_i)是:0.08、−0.12、0.05、−0.09、0.11、−0.07、0.04、−0.03、0.10、−0.06。

计算 χ²、自由度 ν 和减少的卡方值 χ²/ν。然后解释结果:这个数据拟合模型好、差还是可疑地好?作为数据分析师,你接下来会做什么?