un — Hamming Kapitel 27: Unzuverlässige Daten

un

guest

1 / ?

back to lessons

Der Statistikers Koffer

Hamming eröffnet Kapitel 27 mit einer Geschichte. Ein statistischer Freund von Bell Labs vermutete, dass Messungen in einer Studie fehlerhaft waren. Er stritt mit dem Abteilungsleiter, der eine erneute Messung ablehnte - 'Die Instrumente haben Messing-etiketten, die angeben, dass sie so genau sind, und meine Mitarbeiter sind zuverlässig.'

Am Montag kam der Statistiker und sagte, er hätte seinen Koffer im Zug vergessen und alle seine Daten verloren. Es gab nichts anderes zu tun, als erneut zu messen. Als die neuen Messungen eintrafen, legte der Statistiker die ursprünglichen Aufzeichnungen vor - und zeigte, wie weit sie abweichen hatten. Er war für diesen Schritt nicht beliebt, aber die Ungenauigkeit war nun unbestritten.

Hamming zieht eine härtere Lehre aus einem anderen Fall: eine Studie über Telefonanrufmuster, die von derselben zentralen Büroausrüstung aufgezeichnet wurden, die die Anrufe platzierte. Eines Tages bemerkte der Statistiker einen Anruf, der einer nicht existierenden zentralen Stelle berechnet wurde. Bei einer weiteren Untersuchung fand er, dass ein großer Prozentsatz der Anrufe für einige Minuten zu nicht existierenden Büros verbunden war. Die Maschine erzeugte falsche Daten über ihre eigene Funktionsweise. Man kann einem Gerät nicht trauen, selbst Daten über seine korrekte Funktionsweise korrekt zu sammeln.

Sein dritter Fall: Sein Bruder bei der Abteilung für Luftverschmutzung in Los Angeles, der es notwendig fand, jedes neue Instrument, das sie erhielten, ungeachtet der Herstellerangaben, zu demontieren, neu zusammenzubauen und zu kalibrieren.

Hamings Regel: Die Daten sorgfältig prüfen, bevor man sie verarbeitet. Sie plotten. Suchen nach Mustern, die nicht vorhanden sein sollten. Prüfen Sie auf Widersprüche. Unabhängig davon, wie dringend die Antwort ist, prüfen Sie die Daten vor der Verarbeitung zuerst.

Zufälliger Fehler, systematischer Fehler & die Kalibrierkette

Vorab-Prüfung von Daten

Hamings Inventarstudie: Er erhielt 18 Monate von Inventarunterlagen für ~100 Artikel und glaubte naiv an die Zusicherung des Anbieters, dass Unstimmigkeiten entfernt wurden. Spät im Projekt fand er restliche Unstimmigkeiten - Einträge, die ohne Fehler nicht hätten auftreten können (z. B. Ausgaben aus leeren Beständen).

Er schloss: 'Zuerst musste ich sie finden, dann beseitigen und schließlich die Daten erneut verarbeiten. Aus dieser Erfahrung lernte ich, niemals Daten zu verarbeiten, bevor ich sie sorgfältig auf Fehler überprüft hatte.'

Beschreiben Sie drei spezifische Konsistenzprüfungen, die Sie auf einem neuen Datensatz anwenden würden, bevor Sie ihm vertrauen, um es für eine Analyse zu verwenden. Für jede Prüfung erklären Sie, welchen Typ von Fehler sie einfangen würde - und warum dieser Typ von Fehler in den Daten trotz der Zusicherungen des Anbieters existieren könnte.

Zwei Arten von Fehlern

Jede physikalische Messung enthält zwei Arten von Fehlern:

Zufälliger Fehler: unvorhersehbares Schwanken um den wahren Wert. Er folgt einer Verteilung (oft etwa normalverteilt) mit dem wahren Wert im Mittelpunkt. Zufällige Fehler vergehen beim Durchschnittnehmen: Nehmen Sie genug Messungen, und der Mittelwert nähert sich dem wahren Wert.

Systematischer Fehler (Vorzeichen): eine konstante Verschiebung in eine Richtung. Alle Ihre Messungen sind um den gleichen Betrag verschoben. Kein Durchschnittsverfahren kann ihn entfernen, weil der Durchschnitt vieler verzerrter Messungen immer noch verzerrt ist.

Hamings Beispiel aus der Physik: Eine Tabelle mit den 10 grundlegenden Konstanten (Geschwindigkeit des Lichts, Avogadros Zahl, Ladung des Elektrons usw.) wurde erstellt und dann 24 Jahre später mit verbesserten Instrumenten erneut erstellt. Im Durchschnitt fielen die neuen Werte 5,267-mal außerhalb der alten angegebenen Unsicherheitsbereiche. Dies ist nicht plausibel allein aufgrund von zufälligen Fehlern - bei zufälligen Fehlern dieser Größenordnung würden sie festgestellt werden. Die Erklärung: Die alten Instrumente hatten systematische Fehler, die nicht in der angegebenen Unsicherheit berücksichtigt wurden, und die Techniken selbst hatten einen gemeinsamen Fehler, der sich durch die Gemeinschaft weitergeben sollte.

Shannons Anmerkung: 'Kalibrierung ist das Wichtigste bei der Messung.' Kalibrierung bezieht sich auf systematische Fehler. Wenn Ihr Gerät stets 3% zu hoch anzeigt, kann keine Wiederholung der Messung das ändern - Sie müssen kalibrieren.

Systematische Fehler identifizieren

Der Hubble-Konstant: die Geschwindigkeit, mit der sich das Universum ausdehnt, gemessen anhand des Rotverschiebungs-Abstand-Verhältnisses von Galaxien. Mehrere unabhängige Gruppen haben ihn in den letzten 50 Jahren gemessen. Historisch gesehen lagen viele der veröffentlichten Werte außerhalb der Fehlerbänder anderer veröffentlichter Werte - was bedeutet, dass die Unterschiede größer waren als die angegebenen Unsicherheiten.

Erkläre, warum unabhängige Messungen des Hubble-Konstanten jeweils kleine angegebene zufällige Fehler haben können, aber sich trotzdem in Mengen unterscheiden, die größer sind als diese Fehler. Welcher Art von Fehler verursacht dieses Muster und wie würdest du diesen experimentell von zufälligen Fehlern unterscheiden?

Wie testen Sie ein Gerät für Zuverlässigkeit, wenn die Testung selbst länger dauert als Sie haben und Ihre Testausrüstung weniger zuverlässig ist als das zu testende Gerät?

Hamming stellt eine ohne klare Lösung verbleibende Problematik, die jeder praktisch arbeitende Ingenieur irgendwann zu konfrontieren bekommt: *Wie testen Sie ein Gerät für Zuverlässigkeit, wenn die Testung selbst länger dauert als Sie haben, und Ihre Testausrüstung ist weniger zuverlässig als das zu testende Gerät?

Die Szenario: Ein Gerät muss im Feld 20 Jahre lang funktionieren (175.000 Stunden). Ihre Lebensdauertestanlage ist für 10.000 Stunden Betrieb zertifiziert. Ihr Testzeitbudget beträgt 3 Monate (etwa 2.000 Stunden). Das Gerät ist im Feld auf Temperaturen von bis zu 85°C ausgelegt.

Beschleunigte Tests: Führen Sie das Gerät bei 105°C und nehmen Sie an, dass Verschleißereignisse 10× schneller auftreten als bei 85°C (eine gängige Regel von der Hand). Dann repräsentieren 2.000 Stunden bei 105°C 20.000 Stunden bei 85°C. Aber ist das wirklich der Fall?

Das Problem: Das Verschleißmuster bei 105°C kann von dem Verschleißmuster bei 85°C verschieden sein. Wenn Lötstellen bei 85°C durch thermische Ermüdung verschleißen, aber bei 105°C durch Oxidation, so erzählt Ihnen der beschleunigte Test nichts Brauchbares über die Feldlebensdauer.

Shannons Rat ist anwendbar: Kalibrierung - das Verständnis dessen, was Ihre Messung tatsächlich misst - ist der entscheidende Schritt. Beschleunigte Tests kalibrieren Temperatur gegen Verschleißrate nur, wenn das Verschleißmuster gleich ist. Um dies zu verifizieren, ist eine separate Studie erforderlich.

Entwerfen Sie einen Lebensdauertest

Sie sind ein Verantwortlicher für die Zuverlässigkeit eines medizinischen Geräts, das im menschlichen Körper implantiert wird. Es muss 10 Jahre lang (87.600 Stunden) funktionieren. Ihr Laborbudget ermöglicht es Ihnen, 6 Monate lang zu testen (4.380 Stunden). Das Gerät arbeitet bei Körpertemperatur (37°C).

Welches ist das grundlegende Problem, wenn Sie einfach beschleunigte Tests bei 50°C oder 60°C durchführen und dann auf eine 10-jährige Zuverlässigkeit schließen? Beschreiben Sie mindestens zwei spezifische Verschleißmuster, die der beschleunigte Test vermissen könnte oder falsch charakterisieren könnte, und erklären Sie, welche zusätzlichen Beweise Sie sammeln würden, um die Auswertung zu validieren.