un — Geometrie unzuverlässiger Daten

un

guest

1 / ?

back to lessons

Durchschnitt, Varianz und Verzerrung

Jede Messung x_i einer wahren Größe μ kann als x_i = μ + β + ε_i geschrieben werden, wobei β der systematische Fehler (Verzerrung, konstant über Messungen) und ε_i der zufällige Fehler (verschieden für jede Messung, aus einer Verteilung mit Mittelwert 0 gezogen) ist.

Zufälliger Fehler: E[ε_i] = 0, Var[ε_i] = σ². Das Probenmittel x̄ = (1/n) Σ x_i hat den erwarteten Wert μ + β und eine Varianz von σ²/n. Wenn n → ∞, x̄ → μ + β (nicht μ). Der zufällige Fehler geht zur Null; die Verzerrung bleibt bestehen.

Systematischer Fehler: β ≠ 0, konstant. Das Mittelwert jeder Anzahl von Messungen ist μ + β. Um Verzerrung zu entfernen, brauchen Sie Kalibrierung (eine unabhängige Messung von β), nicht mehr Wiederholungen.

Geometrisch: Stellen Sie sich die Verteilung der Messungen als Glockenkurve vor. Der zufällige Fehler bestimmt die Breite (Varianz). Der systematische Fehler bestimmt die Position des Zentrums (der Mittelwert ist um β von der wahren Größe verschoben).

Die angegebene Unsicherheit in einer Messung ist normalerweise eine Schätzung von σ (nur zufälliger Fehler). Wenn β groß und nicht erkannt, ist die angegebene Unsicherheit sinnlos - es quantifiziert den Lärm in einer verzerrten Vorrichtung.

Fehlerfortpflanzung: Unsicherheit durch Funktionen

Berechnung von Bias gegen Varianz

Ein Labor misst die Gravitationskonstante g. Seine Vorrichtung hat einen systematischen Kalibrierfehler von β = +0,05 m/s². Ihre zufällige Messunsicherheit beträgt σ = 0,02 m/s². Sie nehmen n = 100 Messungen vor.

Wahre Größe: g = 9,80 m/s².

Berechnen Sie: (a) den erwarteten Wert ihrer Probenmittelwert x̄, (b) die Standardfehler ihres Probenmittelwerts (Unsicherheit in x̄ aufgrund von zufälligen Fehlern nur), (c) das 95% Konfidenzintervall, das sie angeben würden (unter der Annahme, dass sie die Verzerrung nicht kennen), und (d) ob die wahre Größe in diesem Intervall liegt. Zeigen Sie alle Berechnungen.

Wie Fehler durch Rechnungen gehen

Wenn Sie eine Größe z = f(x, y) aus gemessenen Größen x und y berechnen, gehen deren Messfehler in z über.

Ausbreitungsfunktion (erste Taylor-Expansion):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Dies unterstellt, dass x und y unabhängig voneinander gemessen wurden. Wenn sie korreliert sind, addieren Sie 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Schlüsselerkenntnis: Die partiellen Ableiten wirken als Verstärker. Wenn ∂f/∂x groß ist, führen kleine Fehler in x zu großen Fehlern in z.

Das bedeutet, dass das Wahl eines Rechenverfahrens, das die partiellen Ableiten minimiert, ein echtes ingenieurliches Ziel ist - nicht nur eine algorithmische Bequemlichkeit. Hamming war sich dieser Tatsache in seiner numerischen Analyse bewusst.

Ausbreitung durch ein Produkt

Sie messen zwei Längen: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) und L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Sie berechnen die Fläche A = L₁ × L₂.

Verwenden Sie die Ausbreitung der Unsicherheit Formel, um (a) den erwarteten Wert von A zu berechnen, (b) σ_A mit der Formel σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², und (c) die relative Unsicherheit σ_A/A. Zeigen Sie, dass die relative Unsicherheit in A gleich √[(σ₁/L₁)² + (σ₂/L₂)²] ist. Verifizieren Sie dies numerisch.

Wenn Daten zu gut passen

Chi-squared-Güte-Test: Gegeben n Beobachtungen O_i und Modellvorhersagen E_i, berechne:

χ² = Σ (O_i − E_i)² / E_i

Wenn das Modell korrekt ist und die Messungen eine Varianz E_i haben, beträgt der erwartete Wert von χ² ungefähr ν = (Anzahl der Datapunkte) − (Anzahl der angepassten Parameter), genannt Freiheitsgrade.

Das reduzierte Chi-Quadrat χ²/ν sollte ungefähr 1,0 betragen, wenn die Daten zum Modell mit der erwarteten Menge an Streu passen.

- χ²/ν >> 1: Daten variieren mehr als erwartet - Modell ist falsch, oder Unsicherheiten werden unterschätzt.

- χ²/ν << 1: Daten variieren weniger als erwartet - arglistig saubene.

Das verdächtige Fall: Wenn deine Messungen eine σ = 0,1 haben, aber die Daten alle innerhalb ±0,01 der Modellkurve liegen, hat jemand selektiv die 'guten' Messungen beibehalten. Dies ist Bestätigungsvorurteil: Daten, die nicht übereinstimmen, aussortieren und Daten, die übereinstimmen, aufbewahren.

Hamming zitiert Millikans Öltropfen-Experiment: Die Nobelpreis-verliehene Messung der Elektronenladung. Spätere Analyse der Laborbücher von Millikan zeigte, dass er unbekannt gebliebene Urteile angewendet hat, um 'Ausreißer'-Messungen zu verwerfen - und die beibehaltenen Messungen passten arglistig gut.

Berechne und deute reduziertes Chi-Quadrat

Ein Student passt ein lineares Modell y = ax + b an 10 Datapunkte an, schätzt dabei 2 Parameter (a und b). Die angegebene Messunsicherheit für jeden Punkt beträgt σ = 0,5. Die Residuen (O_i − E_i) von der Passung sind: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.

Berechne χ², die Freiheitsgrade ν und das reduzierte Chi-Quadrat χ²/ν. Deute dann das Ergebnis aus: Passen die Daten gut, schlecht oder arglistig gut? Was würdest du als Datenanalytiker als Nächstes tun?