un — Géométrie des Données Non Fiables

un

invité

1 / ?

retour aux leçons

Moyenne, Variance et Biais

Chaque mesure x_i d'une vraie valeur μ peut s'écrire : x_i = μ + β + ε_i, où β est l'erreur systématique (biais, constant à travers les mesures) et ε_i est l'erreur aléatoire (différente pour chaque mesure, tirée d'une distribution de moyenne 0).

Erreur aléatoire : E[ε_i] = 0, Var[ε_i] = σ². La moyenne de l'échantillon x̄ = (1/n) Σ x_i a une valeur attendue μ + β et une variance σ²/n. Quand n → ∞, x̄ → μ + β (pas μ). L'erreur aléatoire s'annule ; le biais ne le fait pas.

Erreur systématique : β ≠ 0, constante. La moyenne de n'importe quel nombre de mesures est μ + β. Pour supprimer le biais, vous avez besoin d'un étalonnage (une mesure indépendante de β), pas plus de répétitions.

Géométriquement : imaginez la distribution des mesures comme une courbe en cloche. L'erreur aléatoire contrôle la largeur (variance). L'erreur systématique contrôle la localisation du centre (la moyenne est décalée par rapport à la vraie valeur de β).

L'incertitude déclarée dans une mesure est généralement une estimation de σ (erreur aléatoire seulement). Si β est grand et non détecté, l'incertitude déclarée est sans sens — elle quantifie le bruit d'un instrument biaisé.

Propagation d'erreur : incertitude à travers les fonctions

Calcul du Biais vs Variance

Un laboratoire mesure la constante gravitationnelle g. Leur instrument a une erreur d'étalonnage systématique de β = +0,05 m/s². Leur erreur de mesure aléatoire a un écart-type σ = 0,02 m/s². Ils font n = 100 mesures.

Vraie valeur : g = 9,80 m/s².

Calculez : (a) la valeur attendue de leur moyenne d'échantillon x̄, (b) l'erreur-type de leur moyenne d'échantillon (incertitude dans x̄ due à l'erreur aléatoire seulement), (c) l'intervalle de confiance à 95 % qu'ils rapporteraient (en supposant qu'ils ne sont pas au courant du biais), et (d) si la vraie valeur se situe dans cet intervalle. Montrez tous les calculs.

Comment les Erreurs Se Propagent à Travers les Calculs

Quand vous calculez une quantité z = f(x, y) à partir de quantités mesurées x et y, leurs erreurs de mesure se propagent dans z.

Formule de propagation d'erreur (expansion de Taylor au premier ordre) :

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Cela suppose que les erreurs de x et y sont indépendantes. S'ils sont corrélés, ajoutez 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Idée clé : les dérivées partielles agissent comme des amplificateurs. Si ∂f/∂x est grand, les petites erreurs dans x produisent de grandes erreurs dans z.

Cela signifie que le choix d'une méthode de calcul qui minimise les dérivées partielles est un vrai objectif d'ingénierie — pas seulement une commodité algorithmique. Hamming en était vivement conscient dans ses travaux d'analyse numérique.

Propagation à Travers un Produit

Vous mesurez deux longueurs : L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) et L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Vous calculez l'aire A = L₁ × L₂.

En utilisant la formule de propagation de l'incertitude, calculez : (a) la valeur attendue de A, (b) σ_A en utilisant la formule σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², et (c) l'incertitude relative σ_A/A. Montrez que l'incertitude relative dans A est égale à √[(σ₁/L₁)² + (σ₂/L₂)²]. Vérifiez cela numériquement.

Quand les Données S'Ajustent Trop Bien

Test d'ajustement chi-carré : étant donnés n observations O_i et prédictions du modèle E_i, calculez :

χ² = Σ (O_i − E_i)² / E_i

Si le modèle est correct et que les mesures ont une variance E_i, la valeur attendue de χ² est approximativement ν = (nombre de points de données) − (nombre de paramètres ajustés), appelés degrés de liberté.

Le chi-carré réduit χ²/ν devrait être approximativement 1,0 si les données s'ajustent au modèle avec la quantité de dispersion attendue.

- χ²/ν >> 1 : les données varient plus que prévu — le modèle est faux, ou les incertitudes sont sous-estimées.

- χ²/ν << 1 : les données varient moins que prévu — suspectes propres.

Le cas suspect : si vos mesures ont σ = 0,1 mais que les données se situent toutes à ±0,01 de la courbe du modèle, quelqu'un a sélectivement conservé les mesures « bonnes ». C'est un biais de confirmation : rejeter les données en désaccord et conserver les données en accord.

Hamming cite l'expérience des gouttelettes d'huile de Millikan : la mesure gagnante du prix Nobel de la charge de l'électron. L'analyse ultérieure des cahiers de laboratoire de Millikan a révélé qu'il avait appliqué un jugement non documenté pour rejeter les mesures « aberrantes » — et les mesures conservées s'ajustaient suspectes bien.

Calculer et Interpréter le Chi-Carré Réduit

Un étudiant ajuste un modèle linéaire y = ax + b à 10 points de données, en estimant 2 paramètres (a et b). L'incertitude de mesure déclarée pour chaque point est σ = 0,5. Les résidus (O_i − E_i) de l'ajustement sont : 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.

Calculez χ², les degrés de liberté ν, et le chi-carré réduit χ²/ν. Puis interprétez le résultat : ces données s'ajustent-elles bien au modèle, mal, ou suspectes bien ? Que feriez-vous ensuite en tant qu'analyste de données ?