Moyenne, Variance et Biais
Chaque mesure x_i d'une vraie valeur μ peut s'écrire : x_i = μ + β + ε_i, où β est l'erreur systématique (biais, constant à travers les mesures) et ε_i est l'erreur aléatoire (différente pour chaque mesure, tirée d'une distribution de moyenne 0).
Erreur aléatoire : E[ε_i] = 0, Var[ε_i] = σ². La moyenne de l'échantillon x̄ = (1/n) Σ x_i a une valeur attendue μ + β et une variance σ²/n. Quand n → ∞, x̄ → μ + β (pas μ). L'erreur aléatoire s'annule ; le biais ne le fait pas.
Erreur systématique : β ≠ 0, constante. La moyenne de n'importe quel nombre de mesures est μ + β. Pour supprimer le biais, vous avez besoin d'un étalonnage (une mesure indépendante de β), pas plus de répétitions.
Géométriquement : imaginez la distribution des mesures comme une courbe en cloche. L'erreur aléatoire contrôle la largeur (variance). L'erreur systématique contrôle la localisation du centre (la moyenne est décalée par rapport à la vraie valeur de β).
L'incertitude déclarée dans une mesure est généralement une estimation de σ (erreur aléatoire seulement). Si β est grand et non détecté, l'incertitude déclarée est sans sens — elle quantifie le bruit d'un instrument biaisé.
Calcul du Biais vs Variance
Un laboratoire mesure la constante gravitationnelle g. Leur instrument a une erreur d'étalonnage systématique de β = +0,05 m/s². Leur erreur de mesure aléatoire a un écart-type σ = 0,02 m/s². Ils font n = 100 mesures.
Vraie valeur : g = 9,80 m/s².
Comment les Erreurs Se Propagent à Travers les Calculs
Quand vous calculez une quantité z = f(x, y) à partir de quantités mesurées x et y, leurs erreurs de mesure se propagent dans z.
Formule de propagation d'erreur (expansion de Taylor au premier ordre) :
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(Cela suppose que les erreurs de x et y sont indépendantes. S'ils sont corrélés, ajoutez 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)
Idée clé : les dérivées partielles agissent comme des amplificateurs. Si ∂f/∂x est grand, les petites erreurs dans x produisent de grandes erreurs dans z.
Cela signifie que le choix d'une méthode de calcul qui minimise les dérivées partielles est un vrai objectif d'ingénierie — pas seulement une commodité algorithmique. Hamming en était vivement conscient dans ses travaux d'analyse numérique.
Propagation à Travers un Produit
Vous mesurez deux longueurs : L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) et L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Vous calculez l'aire A = L₁ × L₂.
Quand les Données S'Ajustent Trop Bien
Test d'ajustement chi-carré : étant donnés n observations O_i et prédictions du modèle E_i, calculez :
χ² = Σ (O_i − E_i)² / E_i
Si le modèle est correct et que les mesures ont une variance E_i, la valeur attendue de χ² est approximativement ν = (nombre de points de données) − (nombre de paramètres ajustés), appelés degrés de liberté.
Le chi-carré réduit χ²/ν devrait être approximativement 1,0 si les données s'ajustent au modèle avec la quantité de dispersion attendue.
- χ²/ν >> 1 : les données varient plus que prévu — le modèle est faux, ou les incertitudes sont sous-estimées.
- χ²/ν << 1 : les données varient moins que prévu — suspectes propres.
Le cas suspect : si vos mesures ont σ = 0,1 mais que les données se situent toutes à ±0,01 de la courbe du modèle, quelqu'un a sélectivement conservé les mesures « bonnes ». C'est un biais de confirmation : rejeter les données en désaccord et conserver les données en accord.
Hamming cite l'expérience des gouttelettes d'huile de Millikan : la mesure gagnante du prix Nobel de la charge de l'électron. L'analyse ultérieure des cahiers de laboratoire de Millikan a révélé qu'il avait appliqué un jugement non documenté pour rejeter les mesures « aberrantes » — et les mesures conservées s'ajustaient suspectes bien.
Calculer et Interpréter le Chi-Carré Réduit
Un étudiant ajuste un modèle linéaire y = ax + b à 10 points de données, en estimant 2 paramètres (a et b). L'incertitude de mesure déclarée pour chaque point est σ = 0,5. Les résidus (O_i − E_i) de l'ajustement sont : 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.