un — Geometria Niewiarygodnych Danych

un

guest

1 / ?

back to lessons

Średnia, Zmienność i Bias

Każdy pomiar x_i wartości prawdziwej μ może być zapisać jako: x_i = μ + β + ε_i, gdzie β to błąd systematyczny (bias, stały w miarach) a ε_i to błąd losowy (różny dla każdego pomiaru, wyznaczony z dystrybucji o średniej 0).

Błąd losowy: E[ε_i] = 0, Var[ε_i] = σ². Średnia próbna x̄ = (1/n) Σ x_i ma wartość oczekiwaną μ + β i zmiennosc σ²/n. Gdy n → ∞, x̄ → μ + β (a nie μ). Błąd losowy maleje, a bias nie.

Błąd systematyczny: β ≠ 0, stały. Średnia dowolnej liczby pomiarów to μ + β. Aby usunąć bias, potrzebujesz kalibracji (niezależnego pomiaru β), a nie więcej powtórzeń.

Geometrycznie: wyobraź sobie dystrybucję pomiarów jako krzywą normalną. Błąd losowy kontroluje szerokość (zmiennosc kwadratowa). Błąd systematyczny kontroluje lokalizację środka (średnia jest przesunięta od wartości prawdziwej o β).

Zadeklarowana niepewność pomiaru jest zazwyczaj szacunkiem σ (błąd losowy tylko). Jeśli β jest duża i niezauważona, oznacza to, że wyrażona niepewność jest bezsensowna - mierzy ona szum w zniekształconym urządzeniu.

Propagacja Błędu: Niepewność Przez Funkcje

Obliczenie Bias i Zmienności

Laboratorium pomiarowe mierzy stałą grawitacyjną g. Ich urządzenie ma błąd kalibrowania systematyczny wynoszący β = +0.05 m/s². Ich błąd losowy pomiarowy ma odchylenie standardowe σ = 0.02 m/s². Zrobili n = 100 pomiarów.

Wartość prawdziwa: g = 9.80 m/s².

Oblicz: (a) wartość oczekiwaną ich średniej próbnej x̄, (b) błąd standardowy ich średniej próbnej (niepewność x̄ spowodowana tylko błędem losowym), (c) 95% przedział ufności, który zgłosiliby (przyjmując, że nie są świadomi błędu), oraz (d) czy wartość prawdziwa znajduje się w tym przedziale. Pokaż wszystkie obliczenia.

Jak Błędy Przepływają przez Obliczenia

Gdy obliczasz ilość z zapisu zmiennych x i y, ich błędy pomiarowe przenoszą się do z.

Formuła propagacji błędów (pierwsza rozwinięcie Taylora):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(To założyć, że błędy x i y są niezależne. Jeśli są skorelowane, dodaj 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Kluczowe spostrzeżenie: częściowe pochodne działają jako amplifikatory. Jeśli ∂f/∂x jest duże, małe błędy w x powodują duże błędy w z.

To oznacza, że wybór metody obliczeń, która minimalizuje częściowe pochodne, jest rzeczywistym celem inżynierskim - a nie tylko wygodą algorytmiczną. Hamming był świadom tego w swojej pracy z analizą numeryczną.

Rozprzestrzenianie Się Niepewności przez Produkt

Pomiary dwóch długości: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) i L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Obliczasz pole A = L₁ × L₂.

Wykorzystując propagację błędu niepewności, oblicz: (a) wartość oczekiwana A, (b) σ_A korzystając z formuły σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², i (c) względna niepewność σ_A/A. Pokaż, że względna niepewność w A równa się √[(σ₁/L₁)² + (σ₂/L₂)²]. Sprostuj to liczbami.

Kiedy dane pasują zbyt dobrze

Test dobrej pasowy chi-squared: dane wejściowe O_i i przewidywania modelu E_i, oblicz:

χ² = Σ (O_i − E_i)² / E_i

Jeśli model jest poprawny i pomiarów ma zmiennosc E_i, wartość średnia χ² wynosi około ν = (liczba punktów danych) − (liczba parametrów dopasowanych), nazywany stopniem swobody.

Zredukowany chi-squared χ²/ν powinien być około 1.0, jeśli dane pasują do modelu z oczekiwaną ilością zakłóceń.

- χ²/ν >> 1: dane zmienniają się więcej niż oczekiwano — model jest nieprawidłowy, lub niepewności są niedostatecznie oszacowane.

- χ²/ν << 1: dane zmienniają się mniej niż oczekiwano — zaniepokojająco czyste.

Zaniepokojający przypadek: jeśli twoje pomiary mają σ = 0.1, ale dane wszystkie wpadają w zakres ±0.01 krzywej modelu, ktoś wybrał 'dobrze' pomiary. To potwierdzenie upodobnień: odrzucanie danych niezgodnych i przechowywanie danych zgodnych.

Hamming cytuje eksperyment Millikana z kroplami oleju: pomiar ładunku elektronu, nagrodzony Nagrodą Nobla. Późniejsze analizy zapisów laboratoryjnych Millikana wykazały, że stosował nieudokumentowane sądy w celu odrzucenia pomiarów 'wyjściowych' — i zachowane pomiary pasują podejrzanie dobrze.

Oblicz i zinterpretuj zredukowany chi-squared

Student dopasowuje liniowy model y = ax + b do 10 punktów danych, oszacowując 2 parametry (a i b). Współczesne niepewności dla każdego punktu wynoszą σ = 0.5. Residua (O_i − E_i) z dopasowania to: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

Oblicz χ², stopień swobody ν oraz zredukowany chi-squared χ²/ν. Następnie zinterpretuj wynik: czy dane dobrze pasują do modelu, słabo czy podejrzanie dobrze? Co zrobisz jako analityk danych?