un — Meetkunde van onbetrouwbare gegevens

un

gast

1 / ?

terug naar lessen

Gemiddelde, variantie en bias

Elke meting x_i van een echte waarde μ kan als volgt worden geschreven: x_i = μ + β + ε_i, waarbij β de systematische fout (bias, constant over alle metingen) is en ε_i de willekeurige fout (verschillend voor elke meting, getrokken uit een verdeling met gemiddelde 0) is.

Willekeurige fout: E[ε_i] = 0, Var[ε_i] = σ². Het steekproefgemiddelde x̄ = (1/n) Σ x_i heeft verwachte waarde μ + β en variantie σ²/n. Als n → ∞, dan x̄ → μ + β (niet μ). De willekeurige fout gaat naar nul; de bias niet.

Systematische fout: β ≠ 0, constant. Het gemiddelde van elk aantal metingen is μ + β. Om bias te verwijderen, heb je kalibratie nodig (een onafhankelijke meting van β), niet meer herhalingen.

Meetkundig: stel je de verdeling van metingen voor als een belcurve. Willekeurige fout bepaalt de breedte (variantie). Systematische fout bepaalt de positie van het centrum (het gemiddelde is van de echte waarde verschoven met β).

De aangegeven onzekerheid in een meting is meestal een schatting van σ (alleen willekeurige fout). Als β groot is en niet opgemerkt, is de aangegeven onzekerheid zinloos — het kwantificeert de ruis in een voorgespannen instrument.

Foutvoortplanting: onzekerheid door functies

Bias versus variantie berekening

Een laboratorium meet de zwaartekrachtconstante g. Hun instrument heeft een systematische kalibratiefouten van β = +0,05 m/s². Hun willekeurige meetfout heeft standaarddeviatie σ = 0,02 m/s². Ze nemen n = 100 metingen.

Echte waarde: g = 9,80 m/s².

Bereken: (a) de verwachte waarde van hun steekproefgemiddelde x̄, (b) de standaardfout van hun steekproefgemiddelde (onzekerheid in x̄ vanwege alleen willekeurige fout), (c) het 95%-betrouwbaarheidsinterval dat ze zouden rapporteren (aangenomen dat zij zich niet bewust zijn van de bias), en (d) of de echte waarde binnen dat interval ligt. Toon alle berekeningen.

Hoe fouten door berekeningen bewegen

Wanneer je een grootheid z = f(x, y) berekent uit gemeten grootheden x en y, planten hun meetfouten zich voort in z.

Foutvoortplantingsformule (eerste-orde Taylorbenadering):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Dit veronderstelt dat x en y fouten onafhankelijk zijn. Voeg, indien gecorreleerd, 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y) toe.)

Belangrijk inzicht: de partiële afgeleiden werken als versterkers. Als ∂f/∂x groot is, produceren kleine fouten in x grote fouten in z.

Dit betekent dat het kiezen van een berekeningsmethode die de partiële afgeleiden minimaliseert een echt engineeringdoel is — niet alleen algoritmische gemak. Hamming was zich hiervan scherp bewust in zijn numerieke analysewerk.

Voortplanting door een product

Je meet twee lengtes: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) en L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Je berekent oppervlakte A = L₁ × L₂.

Bereken met de foutvoortplantingsformule: (a) de verwachte waarde van A, (b) σ_A met behulp van de formule σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², en (c) de relatieve onzekerheid σ_A/A. Toon aan dat de relatieve onzekerheid in A gelijk is aan √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifieer dit numeriek.

Wanneer gegevens te goed passen

Chi-kwadraat-aanpassingstest: gegeven n observaties O_i en modelvoorspellingen E_i, bereken:

χ² = Σ (O_i − E_i)² / E_i

Als het model juist is en metingen variantie E_i hebben, is de verwachte waarde van χ² ongeveer ν = (aantal datapunten) − (aantal aangepaste parameters), genoemd vrijheidsgraden.

De gereduceerde chi-kwadraat χ²/ν moet ongeveer 1,0 zijn als de gegevens het model met de verwachte hoeveelheid spreiding passen.

- χ²/ν >> 1: gegevens variëren meer dan verwacht — model is verkeerd, of onzekerheden worden onderschat.

- χ²/ν << 1: gegevens variëren minder dan verwacht — verdacht schoon.

Het verdachte geval: als je metingen σ = 0,1 hebben maar de gegevens allemaal binnen ±0,01 van de modelcurve liggen, heeft iemand selectief de 'goede' metingen behouden. Dit is bevestigingsbias: gegevens die niet overeenkomen weggooien en gegevens die overeenkomen behouden.

Hamming verwijst naar Millikans oliedruppelexperiment: de Nobelprijs-winnende meting van de elektronlading. Latere analyse van Millikans laboratoriumnotitieblokken onthulde dat hij ongedocumenteerde oordelen toepaste om 'uitbijter'-metingen af te wijzen — en de behouden metingen pasten verdacht goed.

Bereken en interpreteer gereduceerde chi-kwadraat

Een student past een lineair model y = ax + b aan 10 datapunten aan, waarbij 2 parameters (a en b) worden geschat. De aangegeven meetonzekerheid voor elk punt is σ = 0,5. De residualen (O_i − E_i) uit de aanpassingen zijn: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.

Bereken χ², de vrijheidsgraden ν, en de gereduceerde chi-kwadraat χ²/ν. Interpreteer vervolgens het resultaat: passen deze gegevens goed, slecht, of verdacht goed bij het model? Wat zou je volgende doen als gegevensanalist?