Mittelwert, Varianz und Bias
Jede Messung x_i eines wahren Wertes μ kann geschrieben werden als: x_i = μ + β + ε_i, wobei β der systematische Fehler (Bias, konstant über alle Messungen) und ε_i der zufällige Fehler ist (unterschiedlich für jede Messung, aus einer Verteilung mit Mittelwert 0 gezogen).
Zufälliger Fehler: E[ε_i] = 0, Var[ε_i] = σ². Der Stichprobenmittelwert x̄ = (1/n) Σ x_i hat den Erwartungswert μ + β und die Varianz σ²/n. Wenn n → ∞, dann x̄ → μ + β (nicht μ). Der zufällige Fehler geht gegen Null, der Bias nicht.
Systematischer Fehler: β ≠ 0, konstant. Der Mittelwert jeder Anzahl von Messungen ist μ + β. Um Bias zu entfernen, benötigen Sie eine Kalibrierung (eine unabhängige Messung von β), nicht mehr Wiederholungen.
Geometrisch: Stellen Sie sich die Verteilung der Messungen als eine Glockenkurve vor. Der zufällige Fehler kontrolliert die Breite (Varianz). Der systematische Fehler kontrolliert die Lage des Zentrums (der Mittelwert wird vom wahren Wert um β verschoben).
Die angegebene Unsicherheit einer Messung ist normalerweise eine Schätzung von σ (nur zufälliger Fehler). Wenn β groß und unentdeckt ist, ist die angegebene Unsicherheit bedeutungslos — sie quantifiziert das Rauschen eines verzerrten Instruments.
Bias vs. Varianz-Berechnung
Ein Labor misst die Gravitationskonstante g. Ihr Instrument hat einen systematischen Kalibrierungsfehler von β = +0,05 m/s². Ihr zufälliger Messfehler hat eine Standardabweichung von σ = 0,02 m/s². Sie führen n = 100 Messungen durch.
Wahrer Wert: g = 9,80 m/s².
Wie Fehler sich durch Berechnungen bewegen
Wenn Sie eine Größe z = f(x, y) aus gemessenen Größen x und y berechnen, breiten sich ihre Messfehler in z aus.
Fehlerausbreitungsformel (Taylor-Expansion erster Ordnung):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(Dies setzt voraus, dass x und y Fehler unabhängig sind. Wenn korreliert, addieren Sie 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)
Wichtige Erkenntnis: Die partiellen Ableitungen wirken als Verstärker. Wenn ∂f/∂x groß ist, erzeugen kleine Fehler in x große Fehler in z.
Das bedeutet, dass die Wahl einer Berechnungsmethode, die die partiellen Ableitungen minimiert, ein echtes Ingenieurziel ist — nicht nur algorithmische Bequemlichkeit. Hamming war sich dieser Problematik in seiner Arbeit zur numerischen Analyse bewusst.
Ausbreitung durch ein Produkt
Sie messen zwei Längen: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) und L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Sie berechnen die Fläche A = L₁ × L₂.
Wenn Daten zu gut passen
Chi-Quadrat-Anpassungsgüte-Test: gegeben n Beobachtungen O_i und Modellvorhersagen E_i, berechnen Sie:
χ² = Σ (O_i − E_i)² / E_i
Wenn das Modell korrekt ist und Messungen die Varianz E_i haben, ist der Erwartungswert von χ² ungefähr ν = (Anzahl der Datenpunkte) − (Anzahl der angepassten Parameter), genannt Freiheitsgrade.
Das reduzierte Chi-Quadrat χ²/ν sollte ungefähr 1,0 sein, wenn die Daten das Modell mit der erwarteten Menge an Streuung anpassen.
- χ²/ν >> 1: Daten variieren mehr als erwartet — Modell ist falsch, oder Unsicherheiten sind unterschätzt.
- χ²/ν << 1: Daten variieren weniger als erwartet — verdächtig sauber.
Der verdächtige Fall: Wenn Ihre Messungen σ = 0,1 haben, aber alle Daten innerhalb ±0,01 der Modellkurve fallen, hat jemand selektiv die 'guten' Messungen behalten. Dies ist Bestätigungsfehler: Verwerfen von Daten, die nicht stimmen, und Beibehalten von Daten, die stimmen.
Hamming zitiert das Öltropfchen-Experiment von Millikan: die Nobelpreis-würdigende Messung der Elektronenladung. Spätere Analysen von Millikans Labornotizbüchern zeigten, dass er unberichtete Urteile anwendete, um 'Ausreißer'-Messungen zu verwerfen — und die behaltenen Messungen passten verdächtig gut.
Berechnen und interpretieren Sie das reduzierte Chi-Quadrat
Ein Schüler passt ein lineares Modell y = ax + b an 10 Datenpunkte an und schätzt 2 Parameter (a und b). Die angegebene Messunsicherheit für jeden Punkt ist σ = 0,5. Die Residuen (O_i − E_i) aus der Anpassung sind: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.