un — Hamming Kap 27: Opålitlig data

un

gäst

1 / ?

Statistikerns väska

Hamming inleder kapitel 27 med en historia. En statistikervän på Bell Labs misstänkte att mätningarna i en studie var felaktiga. Han tvistade med departemantchef, som vägrade ommätning — 'instrumenten har mässingsplaketter på sig som säger att de är så noggranna, & mina människor är pålitliga.'

På måndag anlände statistikern & sa att han hade glömt sin väska på tåget & förlorat all sin data. Det fanns ingenting att göra utan att omväga. När de nya mätningarna anlände, framställde statistikern de ursprungliga posterna — som visade hur långt bort de hade varit. Han var inte populär för flytten, men felaktigheten var nu obestridlig.

Hamming drar en hårdare lektion från ett annat fall: en studie av telefonsamtalsmönster, registrerad av samma centraloffice-utrustning som placerade samtalen. En dag märkte statistikern ett samtal debiterat till ett inexisterande centraloffice. Vid vidare undersökning fann han att en stor andel samtal anslöts — under några minuter — till inexisterande kontor. Maskinen genererade dålig data om sin egen drift. Du kan inte lita på en maskin för att samla in data om sig själv på rätt sätt.

Hans tredje exempel: hans bror vid Los Angeles Air Pollution department, som fann det nödvändigt att demontera, montera ihop & kalibrera om varje nytt instrument de tog emot, oavsett tillverkarens påståenden.

Hammings regel: undersök alltid data noggrant innan du bearbetar det. Rita det. Leta efter mönster som inte borde finnas där. Kontrollera för inkonsekvenser. Oavsett hur brådskande svaret är, förtesta data först.

Slumpmässigt fel, systematiskt fel & kalibreringkedjan

Förtest av data

Hammings inventeringsstudie: han fick 18 månaders inventeringsregister för ~100 objekt & naivt trodde leverantörens försäkran att inkonsekvenser hade tagits bort. Sent i projektet fann han kvarstående inkonsekvenser — poster som inte kunde ha uppstått utan fel (t.ex. uttag från tomt lager).

Han drog slutsatsen: 'Jag var tvungen att först hitta dem, sedan eliminera dem, & sedan körde jag analysen helt från början. Från den erfarenheten lärde jag mig aldrig att bearbeta någon data innan jag noggrant hade undersökt den för fel.'

Beskriv tre specifika konsekvenskontroller du skulle tillämpa på en ny datamängd innan du litar på den för analys. För varje kontroll förklarar vilken typ av fel den skulle fånga — & varför denna typ av fel kan finnas i data trots leverantörens försäkringar.

Två typer av fel

Varje fysisk mätning innehåller två typer av fel:

Slumpmässigt fel: oförutsägbar variation omkring det sanna värdet. Det följer en fördelning (ofta ungefär Gaussisk) centrerad på det sanna värdet. Slumpmässiga fel tar ut varandra vid medelvärdesbildning: ta tillräckligt många mätningar & medelvärdet närmar sig det sanna värdet.

Systematiskt fel (bias): en konsekvent förskjutning i en riktning. Alla dina mätningar är förskjutna med samma mängd. Ingen mängd medelvärdesbildning tar bort det, för medelvärdet av många förskjutna mätningar är fortfarande förskjutet.

Hammings exempel från fysik: en tabell med de 10 grundläggande konstanterna (ljusets hastighet, Avogadros tal, elektronens laddning, etc.) sammanställdes, & sedan sammanställdes igen 24 år senare med förbättrade instrument. I genomsnitt föll de nya värdena 5.267 gånger utanför de gamla angivna felgränserna. Detta är inte troligt från enbart slumpmässigt fel — slumpmässiga fel av denna storlek skulle vara detekterbara. Förklaringen: de gamla instrumenten hade systematiska fel som inte var inbegripna i den angivna osäkerheten, & teknikerna själva hade en gemensam brist som spred sig genom samfundet.

Shannons anmärkning: 'Kalibrering är det viktigaste vid mätning.' Kalibrering tar itu med systematiskt fel. Om ditt instrument läser konsekvent 3% för högt, ingen mängd upprepad mätning fixar det — du måste kalibrera.

Identifiera systematiskt fel

Hubble-konstanten: hastigheten med vilken universum expanderar, mätt från rödförskjutning-avståndförhållandet för galaxer. Flera oberoende grupper har mätt det under de senaste 50 åren. Historiskt sett föll många av de publicerade värdena utanför felgränserna för andra publicerade värden — vilket betyder att oenigheten var större än de angivna osäkerheterna förutsade.

Förklara varför oberoende mätningar av Hubble-konstanten var och en kan ha små angivna slumpmässiga fel men ändå skiljta sig åt med belopp större än dessa fel. Vilken typ av fel orsakar detta mönster, & hur skulle du skilja det från slumpmässigt fel experimentellt?

Hur testar du vad du inte kan testa?

Hamming ställer ett problem utan någon ren lösning, men som varje praktiserande ingenjör så småningom möter: Hur testar du en enhet för tillförlitlighet när testningen själv tar längre tid än du har, & din testutrustning är mindre tillförlitlig än den enhet du testar?

Scenariot: en enhet måste hålla i 20 år i fältet (175 000 timmar). Ditt livsteststandardlaboratorium är klassificerat för 10 000 timmars drift. Din testperiodbudget är 3 månader (ungefär 2 000 timmar). Enheten förväntas möta drifttemperaturer upp till 85°C i fältet.

Accelererad testning: drifta enheten vid 105°C & anta att fel uppstår 10× snabbare än vid 85°C (en vanlig tumregel för ingenjörer). Då representerar 2 000 timmar vid 105°C 20 000 timmar vid 85°C. Men gör det det?

Problemet: felsättet vid 105°C kan vara annorlunda än felsättet vid 85°C. Om lödjointfel vid 85°C uppstår genom termisk utmattning men vid 105°C genom oxidation, säger det accelererade testet dig ingenting användbart om fältlivslängden.

Shannons råd gäller: kalibrering — förståelse för vad din mätning faktiskt mäter — är det kritiska steget. Accelererad testning kalibrerar temperatur mot felfrekvens bara om felsättet är detsamma. Verifiering av detta kräver en separat studie.

Designa ett livstest

Du är en tillförlitlighetsingenjör för en medicinsk enhet implanterad i den mänskliga kroppen. Den måste hålla i 10 år (87 600 timmar). Din laboratoriumbudget tillåter 6 månaders testning (4 380 timmar). Enheten fungerar vid kropptemperatur (37°C).

Vad är det grundläggande problemet med att helt enkelt köra accelererade tester vid 50°C eller 60°C & extrapolera för att förutsäga 10-årig tillförlitlighet? Beskriv minst två specifika felsätt som det accelererade testet kan missa eller karaktärisera felaktigt, & förklara vilka ytterligare bevis du skulle samla för att validera extrapolationen.