un — Geometri för opålitlig data

un

gäst

1 / ?

Medelvärde, varians och bias

Varje mätning x_i av ett sant värde μ kan skrivas som: x_i = μ + β + ε_i, där β är det systematiska felet (bias, konstant över alla mätningar) och ε_i är det slumpmässiga felet (olika för varje mätning, draget från en fördelning med medelvärde 0).

Slumpmässigt fel: E[ε_i] = 0, Var[ε_i] = σ². Stickprovsmedelväret x̄ = (1/n) Σ x_i har förväntat värde μ + β och varians σ²/n. När n → ∞, x̄ → μ + β (inte μ). Det slumpmässiga felet går till noll; bias gör det inte.

Systematiskt fel: β ≠ 0, konstant. Medelvärdet av valfritt antal mätningar är μ + β. För att ta bort bias behöver du kalibrering (en oberoende mätning av β), inte fler repetitioner.

Geometriskt: föreställ dig fördelningen av mätningar som en klockkurva. Slumpmässigt fel kontrollerar bredden (varians). Systematiskt fel kontrollerar placeringen av mitten (medelvärdet är förskjutet från det sanna värdet med β).

Den angivna osäkerheten i en mätning är vanligtvis en skattning av σ (endast slumpmässigt fel). Om β är stor och oupptäckt, är den angivna osäkerheten meningslös — den kvantifierar bruset i ett instrument med bias.

Osäkerhetsspridning: Osäkerhet genom funktioner

Beräkning av bias kontra varians

Ett laboratorium mäter gravitationskonstanten g. Deras instrument har ett systematiskt kalibreringsfel på β = +0,05 m/s². Deras slumpmässiga mätfel har standardavvikelse σ = 0,02 m/s². De tar n = 100 mätningar.

Verkligt värde: g = 9,80 m/s².

Beräkna: (a) det förväntade värdet av deras stickprovsmedelväde x̄, (b) standardfelet för deras stickprovsmedelväde (osäkerhet i x̄ på grund av endast slumpmässigt fel), (c) det 95% konfidensintervall de skulle rapportera (förutsatt att de inte är medvetna om bias), och (d) om det sanna värdet ligger inom det intervallet. Visa alla beräkningar.

Hur fel rörs genom beräkningar

När du beräknar en storhet z = f(x, y) från mätta storheter x och y, sprids deras mätfel in i z.

Osäkerhetsspridningsformel (första ordningens Tayloruteckling):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Detta antar att x och y-fel är oberoende. Om de är korrelerade, lägg till 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Nyckelinsikt: partiella derivator fungerar som förstärkare. Om ∂f/∂x är stor, producerar små fel i x stora fel i z.

Det betyder att välja en beräkningsmetod som minimerar de partiella derivatorna är ett verkligt ingenjörsmål — inte bara algoritmisk bekvämlighet. Hamming var akut medveten om detta i sitt numeriska analysarbete.

Spridning genom en produkt

Du mäter två längder: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) och L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Du beräknar area A = L₁ × L₂.

Använd osäkerhetsspridningsformeln för att beräkna: (a) det förväntade värdet för A, (b) σ_A med formeln σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², och (c) den relativa osäkerheten σ_A/A. Visa att den relativa osäkerheten i A är lika med √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifiera detta numeriskt.

När data passar för bra

Chi-två goodness-of-fit test: givet n observationer O_i och modellprediktioner E_i, beräkna:

χ² = Σ (O_i − E_i)² / E_i

Om modellen är korrekt och mätningar har varians E_i, är det förväntade värdet för χ² ungefär ν = (antal datapunkter) − (antal anpassade parametrar), kallat frihetsgrader.

Den reducerade chi-två χ²/ν bör vara ungefär 1,0 om data passar modellen med den förväntade mängden spridning.

- χ²/ν >> 1: data varierar mer än förväntat — modellen är fel, eller osäkerheter är underestimerade.

- χ²/ν << 1: data varierar mindre än förväntat — misstänkt rent.

Det misstänkta fallet: om dina mätningar har σ = 0,1 men data ligger alla inom ±0,01 från modellkurvan, har någon selektivt behållit de 'bra' mätningarna. Det här är bekräftelsenorienterad bias: förkasta data som inte håller med och behålla data som stämmer överens.

Hamming citerar Millikans oljdroppsexperiment: den Nobelpris-vinnande mätningen av elektronladdningen. Senare analys av Millikans laboratorieanteckningar avslöjade att han använde oundocumenterad bedömning för att förkasta 'extremvärdesmätningar' — och de bevarade mätningarna passade misstänkt väl.

Beräkna och tolka reducerad chi-två

En student passar en linjär modell y = ax + b till 10 datapunkter, estimerar 2 parametrar (a och b). Den angivna mätosäkerheten för varje punkt är σ = 0,5. Residualerna (O_i − E_i) från anpassningen är: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.

Beräkna χ², frihetsgraderna ν, och den reducerade chi-två χ²/ν. Tolka sedan resultatet: passar denna data modellen bra, dåligt, eller misstänkt väl? Vad skulle du göra härnäst som dataanalytiker?