un — Geometría de Datos No Confiables

un

invitado

1 / ?

volver a las lecciones

Media, Varianza y Sesgo

Cada medición x_i de un valor verdadero μ se puede escribir como: x_i = μ + β + ε_i, donde β es el error sistemático (sesgo, constante en todas las mediciones) y ε_i es el error aleatorio (diferente para cada medición, extraído de una distribución con media 0).

Error aleatorio: E[ε_i] = 0, Var[ε_i] = σ². La media muestral x̄ = (1/n) Σ x_i tiene valor esperado μ + β y varianza σ²/n. Conforme n → ∞, x̄ → μ + β (no μ). El error aleatorio se aproxima a cero; el sesgo no.

Error sistemático: β ≠ 0, constante. La media de cualquier número de mediciones es μ + β. Para eliminar el sesgo, necesitas calibración (una medición independiente de β), no más repeticiones.

Geométricamente: imagina la distribución de mediciones como una campana. El error aleatorio controla el ancho (varianza). El error sistemático controla la ubicación del centro (la media se desplaza del valor verdadero por β).

La incertidumbre indicada en una medición es usualmente una estimación de σ (solo error aleatorio). Si β es grande y no se detecta, la incertidumbre indicada carece de sentido — cuantifica el ruido en un instrumento sesgado.

Propagación de Errores: Incertidumbre a Través de Funciones

Cálculo de Sesgo vs Varianza

Un laboratorio mide la constante gravitacional g. Su instrumento tiene un error sistemático de calibración de β = +0.05 m/s². Su error aleatorio de medición tiene desviación estándar σ = 0.02 m/s². Realizan n = 100 mediciones.

Valor verdadero: g = 9.80 m/s².

Calcula: (a) el valor esperado de su media muestral x̄, (b) el error estándar de su media muestral (incertidumbre en x̄ debido solo al error aleatorio), (c) el intervalo de confianza del 95% que reportarían (asumiendo que desconocen el sesgo), y (d) si el valor verdadero se encuentra dentro de ese intervalo. Muestra todos los cálculos.

Cómo los Errores se Propagan a Través de los Cálculos

Cuando calculas una cantidad z = f(x, y) a partir de cantidades medidas x e y, sus errores de medición se propagan en z.

Fórmula de propagación de errores (expansión de Taylor de primer orden):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Esto asume que los errores de x e y son independientes. Si están correlacionados, suma 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Insight clave: las derivadas parciales actúan como amplificadores. Si ∂f/∂x es grande, pequeños errores en x producen grandes errores en z.

Esto significa que elegir un método de cálculo que minimice las derivadas parciales es un objetivo de ingeniería real — no solo conveniencia algorítmica. Hamming era agudamente consciente de esto en su trabajo de análisis numérico.

Propagación a Través de un Producto

Mides dos longitudes: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) y L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). Calculas el área A = L₁ × L₂.

Usando la fórmula de propagación de incertidumbre, calcula: (a) el valor esperado de A, (b) σ_A usando la fórmula σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², y (c) la incertidumbre relativa σ_A/A. Demuestra que la incertidumbre relativa en A es igual a √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifica esto numéricamente.

Cuando los Datos se Ajustan Demasiado Bien

Prueba de bondad de ajuste chi-cuadrado: dadas n observaciones O_i y predicciones de modelo E_i, calcula:

χ² = Σ (O_i − E_i)² / E_i

Si el modelo es correcto y las mediciones tienen varianza E_i, el valor esperado de χ² es aproximadamente ν = (número de puntos de datos) − (número de parámetros ajustados), llamado grados de libertad.

El chi-cuadrado reducido χ²/ν debe ser aproximadamente 1.0 si los datos se ajustan al modelo con la cantidad esperada de dispersión.

- χ²/ν >> 1: los datos varían más de lo esperado — el modelo es incorrecto, o las incertidumbres están subestimadas.

- χ²/ν << 1: los datos varían menos de lo esperado — sospechosamente limpios.

El caso sospechoso: si tus mediciones tienen σ = 0.1 pero todos los datos caen dentro de ±0.01 de la curva del modelo, alguien ha mantenido selectivamente las mediciones 'buenas'. Este es sesgo de confirmación: descartar datos que no están de acuerdo y retener datos que sí lo están.

Hamming cita el experimento de la gota de aceite de Millikan: la medición ganadora del Premio Nobel de la carga del electrón. Análisis posterior de los cuadernos de laboratorio de Millikan reveló que aplicó criterios no documentados para descartar mediciones 'atípicas' — y las mediciones retenidas se ajustan sospechosamente bien.

Calcula e Interpreta Chi-Cuadrado Reducido

Un estudiante ajusta un modelo lineal y = ax + b a 10 puntos de datos, estimando 2 parámetros (a y b). La incertidumbre de medición indicada para cada punto es σ = 0.5. Los residuos (O_i − E_i) del ajuste son: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

Calcula χ², los grados de libertad ν, y el chi-cuadrado reducido χ²/ν. Luego interpreta el resultado: ¿estos datos se ajustan al modelo bien, mal, o sospechosamente bien? ¿Qué harías a continuación como analista de datos?