Media, Varianza y Sesgo
Cada medición x_i de un valor verdadero μ se puede escribir como: x_i = μ + β + ε_i, donde β es el error sistemático (sesgo, constante en todas las mediciones) y ε_i es el error aleatorio (diferente para cada medición, extraído de una distribución con media 0).
Error aleatorio: E[ε_i] = 0, Var[ε_i] = σ². La media muestral x̄ = (1/n) Σ x_i tiene valor esperado μ + β y varianza σ²/n. Conforme n → ∞, x̄ → μ + β (no μ). El error aleatorio se aproxima a cero; el sesgo no.
Error sistemático: β ≠ 0, constante. La media de cualquier número de mediciones es μ + β. Para eliminar el sesgo, necesitas calibración (una medición independiente de β), no más repeticiones.
Geométricamente: imagina la distribución de mediciones como una campana. El error aleatorio controla el ancho (varianza). El error sistemático controla la ubicación del centro (la media se desplaza del valor verdadero por β).
La incertidumbre indicada en una medición es usualmente una estimación de σ (solo error aleatorio). Si β es grande y no se detecta, la incertidumbre indicada carece de sentido — cuantifica el ruido en un instrumento sesgado.
Cálculo de Sesgo vs Varianza
Un laboratorio mide la constante gravitacional g. Su instrumento tiene un error sistemático de calibración de β = +0.05 m/s². Su error aleatorio de medición tiene desviación estándar σ = 0.02 m/s². Realizan n = 100 mediciones.
Valor verdadero: g = 9.80 m/s².
Cómo los Errores se Propagan a Través de los Cálculos
Cuando calculas una cantidad z = f(x, y) a partir de cantidades medidas x e y, sus errores de medición se propagan en z.
Fórmula de propagación de errores (expansión de Taylor de primer orden):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(Esto asume que los errores de x e y son independientes. Si están correlacionados, suma 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)
Insight clave: las derivadas parciales actúan como amplificadores. Si ∂f/∂x es grande, pequeños errores en x producen grandes errores en z.
Esto significa que elegir un método de cálculo que minimice las derivadas parciales es un objetivo de ingeniería real — no solo conveniencia algorítmica. Hamming era agudamente consciente de esto en su trabajo de análisis numérico.
Propagación a Través de un Producto
Mides dos longitudes: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) y L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). Calculas el área A = L₁ × L₂.
Cuando los Datos se Ajustan Demasiado Bien
Prueba de bondad de ajuste chi-cuadrado: dadas n observaciones O_i y predicciones de modelo E_i, calcula:
χ² = Σ (O_i − E_i)² / E_i
Si el modelo es correcto y las mediciones tienen varianza E_i, el valor esperado de χ² es aproximadamente ν = (número de puntos de datos) − (número de parámetros ajustados), llamado grados de libertad.
El chi-cuadrado reducido χ²/ν debe ser aproximadamente 1.0 si los datos se ajustan al modelo con la cantidad esperada de dispersión.
- χ²/ν >> 1: los datos varían más de lo esperado — el modelo es incorrecto, o las incertidumbres están subestimadas.
- χ²/ν << 1: los datos varían menos de lo esperado — sospechosamente limpios.
El caso sospechoso: si tus mediciones tienen σ = 0.1 pero todos los datos caen dentro de ±0.01 de la curva del modelo, alguien ha mantenido selectivamente las mediciones 'buenas'. Este es sesgo de confirmación: descartar datos que no están de acuerdo y retener datos que sí lo están.
Hamming cita el experimento de la gota de aceite de Millikan: la medición ganadora del Premio Nobel de la carga del electrón. Análisis posterior de los cuadernos de laboratorio de Millikan reveló que aplicó criterios no documentados para descartar mediciones 'atípicas' — y las mediciones retenidas se ajustan sospechosamente bien.
Calcula e Interpreta Chi-Cuadrado Reducido
Un estudiante ajusta un modelo lineal y = ax + b a 10 puntos de datos, estimando 2 parámetros (a y b). La incertidumbre de medición indicada para cada punto es σ = 0.5. Los residuos (O_i − E_i) del ajuste son: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.