un — Hamming Ch 27: Données non fiables

un

invité

1 / ?

retour aux leçons

La serviette du statisticien

Hamming ouvre le chapitre 27 avec une histoire. Un ami statisticien aux Bell Labs soupçonnait que les mesures d'une étude étaient inexactes. Il a argumenté avec le chef du département, qui a refusé de recommencer les mesures — « les instruments ont des plaques de laiton indiquant leur précision, et mes gens sont fiables. »

Le lundi, le statisticien est arrivé et a dit qu'il avait oublié sa serviette dans le train et perdu toutes ses données. Il n'y avait rien à faire que de recommencer les mesures. Quand les nouvelles mesures sont arrivées, le statisticien a produit les dossiers originaux — montrant à quel point elles s'étaient trompées. Il n'était pas populaire pour ce geste, mais l'inexactitude était désormais incontestable.

Hamming tire une leçon plus dure d'un autre cas : une étude des modèles d'appels téléphoniques, enregistrée par le même équipement de central téléphonique qui a passé les appels. Un jour, le statisticien a remarqué un appel facturé à un central inexistant. En examinant plus attentivement, il a trouvé un grand pourcentage d'appels qui se connectaient — pendant quelques minutes — à des centraux inexistants. La machine générait de mauvaises données sur son propre fonctionnement. Vous ne pouvez pas faire confiance à une machine pour recueillir correctement des données sur elle-même.

Son troisième exemple : son frère au département de la pollution de l'air de Los Angeles, qui a trouvé nécessaire de démonter, remonter et recalibrer chaque nouvel instrument qu'ils ont reçu, indépendamment des allégations du fabricant.

Règle de Hamming : examinez toujours les données avec soin avant de les traiter. Tracez un graphique. Cherchez des motifs qui ne devraient pas être présents. Vérifiez les incohérences. Peu importe l'urgence de répondre, testez les données en premier.

Erreur aléatoire, erreur systématique & la chaîne d'étalonnage

Prétest des données

L'étude d'inventaire de Hamming : il a reçu 18 mois de dossiers d'inventaire pour ~100 articles et a naïvement cru l'assurance du fournisseur que les incohérences avaient été supprimées. Tard dans le projet, il a trouvé des incohérences résiduelles — des entrées qui n'auraient pas pu se produire sans erreur (par exemple, des retraits d'un inventaire vide).

Il a conclu : « J'ai d'abord dû les trouver, puis les éliminer, puis relancer les données à nouveau. De cette expérience, j'ai appris à ne jamais traiter de données avant de les avoir d'abord examinées attentivement à la recherche d'erreurs. »

Décrivez trois vérifications de cohérence spécifiques que vous appliqueriez à un nouvel ensemble de données avant de le faire confiance pour l'analyse. Pour chaque vérification, expliquez quel type d'erreur elle détecterait — et pourquoi ce type d'erreur pourrait exister dans les données malgré les assurances du fournisseur.

Deux types d'erreur

Chaque mesure physique porte deux types d'erreur :

Erreur aléatoire : variation imprévisible autour de la vraie valeur. Elle suit une distribution (souvent approximativement gaussienne) centrée sur la vraie valeur. Les erreurs aléatoires s'annulent avec la moyenne : prenez suffisamment de mesures et la moyenne s'approche de la vraie valeur.

Erreur systématique (biais) : un décalage cohérent dans une direction. Toutes vos mesures sont décalées du même montant. Aucune quantité de moyenne ne l'élimine, car la moyenne de nombreuses mesures biaisées est toujours biaisée.

L'exemple de Hamming de la physique : un tableau des 10 constantes fondamentales (vitesse de la lumière, nombre d'Avogadro, charge de l'électron, etc.) a été compilé, puis recompilé 24 ans plus tard avec des instruments améliorés. En moyenne, les nouvelles valeurs se situaient 5,267 fois en dehors des anciennes barres d'erreur déclarées. Ce n'est pas plausible à partir de la seule erreur aléatoire — les erreurs aléatoires aussi grandes seraient détectables. L'explication : les anciens instruments avaient des erreurs systématiques non capturées dans l'incertitude déclarée, et les techniques elles-mêmes avaient un défaut partagé transmis dans la communauté.

Remarque de Shannon : « L'étalonnage est la chose la plus importante en mesure. » L'étalonnage s'adresse à l'erreur systématique. Si votre instrument lit constamment 3 % trop haut, aucune quantité de mesure répétée ne le corrige — vous devez recalibrer.

Identifier l'erreur systématique

La constante de Hubble : le taux auquel l'univers se dilate, mesuré à partir de la relation décalage spectral-distance des galaxies. Plusieurs groupes indépendants l'ont mesuré au cours des 50 dernières années. Historiquement, de nombreuses valeurs publiées se situaient en dehors des barres d'erreur d'autres valeurs publiées — ce qui signifie que les désaccords étaient plus importants que les incertitudes déclarées ne l'avaient prédit.

Expliquez pourquoi des mesures indépendantes de la constante de Hubble pourraient chacune avoir de petites erreurs aléatoires déclarées mais encore désaccorder par des montants plus importants que ces erreurs. Quel type d'erreur cause ce motif, et comment le distingueriez-vous de l'erreur aléatoire expérimentalement?

Comment testez-vous ce que vous ne pouvez pas tester?

Hamming pose un problème sans solution nette, mais que chaque ingénieur praticien finit par affronter : Comment testez-vous un appareil pour la fiabilité quand le test lui-même prend plus de temps que vous n'avez, et que votre équipement de test est moins fiable que l'appareil que vous testez?

Le scénario : un appareil doit durer 20 ans sur le terrain (175 000 heures). Votre laboratoire de test de durée de vie est évalué à 10 000 heures de fonctionnement. Votre budget de période de test est de 3 mois (environ 2 000 heures). L'appareil doit faire face à des températures de fonctionnement jusqu'à 85°C sur le terrain.

Test accéléré : exécutez l'appareil à 105°C et supposez que les défaillances se produisent 10× plus rapidement qu'à 85°C (une règle d'ingénierie courante). Ensuite, 2 000 heures à 105°C « représente » 20 000 heures à 85°C. Mais est-ce vraiment?

Le problème : le mode de défaillance à 105°C peut être différent du mode de défaillance à 85°C. Si les joints de soudure échouent par fatigue thermique à 85°C mais par oxydation à 105°C, le test accéléré ne vous dit rien d'utile sur la durée de vie sur le terrain.

Le conseil de Shannon s'applique : l'étalonnage — comprendre ce que votre mesure mesure réellement — est l'étape critique. Le test accéléré calibre la température par rapport à la vitesse de défaillance seulement si le mode de défaillance est le même. Vérifier cela nécessite une étude séparée.

Concevoir un test de durée de vie

Vous êtes un ingénieur en fiabilité pour un appareil médical implanté dans le corps humain. Il doit durer 10 ans (87 600 heures). Votre budget de laboratoire permet 6 mois de tests (4 380 heures). L'appareil fonctionne à la température du corps (37°C).

Quel est le problème fondamental en exécutant simplement des tests accélérés à 50°C ou 60°C et en extrapolant pour prédire la fiabilité à 10 ans? Décrivez au moins deux modes de défaillance spécifiques que le test accéléré pourrait rater ou mal caractériser, et expliquez quelles preuves supplémentaires vous recueilleriez pour valider l'extrapolation.