un — Geometria dei Dati Inaffidabili

un

ospite

1 / ?

torna alle lezioni

Media, Varianza e Distorsione

Ogni misurazione x_i di un valore vero μ può essere scritta come: x_i = μ + β + ε_i, dove β è l'errore sistematico (distorsione, costante tra le misurazioni) e ε_i è l'errore casuale (diverso per ogni misurazione, estratto da una distribuzione con media 0).

Errore casuale: E[ε_i] = 0, Var[ε_i] = σ². La media campionaria x̄ = (1/n) Σ x_i ha valore atteso μ + β e varianza σ²/n. Quando n → ∞, x̄ → μ + β (non μ). L'errore casuale va a zero; la distorsione no.

Errore sistematico: β ≠ 0, costante. La media di qualsiasi numero di misurazioni è μ + β. Per rimuovere la distorsione, hai bisogno della calibrazione (una misurazione indipendente di β), non di più ripetizioni.

Geometricamente: immagina la distribuzione delle misurazioni come una curva a campana. L'errore casuale controlla la larghezza (varianza). L'errore sistematico controlla la posizione del centro (la media è spostata dal valore vero di β).

L'incertezza dichiarata in una misurazione è solitamente una stima di σ (solo errore casuale). Se β è grande e non rilevato, l'incertezza dichiarata è senza significato — quantifica il rumore in uno strumento distorto.

Propagazione dell'Errore: Incertezza Attraverso le Funzioni

Calcolo della Distorsione vs Varianza

Un laboratorio misura la costante gravitazionale g. Il loro strumento ha un errore di calibrazione sistematico di β = +0.05 m/s². Il loro errore di misurazione casuale ha deviazione standard σ = 0.02 m/s². Effettuano n = 100 misurazioni.

Valore vero: g = 9.80 m/s².

Calcola: (a) il valore atteso della loro media campionaria x̄, (b) l'errore standard della loro media campionaria (incertezza in x̄ dovuta solo all'errore casuale), (c) l'intervallo di confidenza al 95% che riporterebbero (supponendo che non siano consapevoli della distorsione), e (d) se il valore vero rientra in quell'intervallo. Mostra tutti i calcoli.

Come gli Errori si Propagano Attraverso i Calcoli

Quando calcoli una quantità z = f(x, y) da quantità misurate x e y, i loro errori di misurazione si propagano in z.

Formula di propagazione dell'errore (espansione di Taylor del primo ordine):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Questo presuppone che gli errori di x e y siano indipendenti. Se correlati, aggiungi 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Intuizione chiave: le derivate parziali agiscono come amplificatori. Se ∂f/∂x è grande, piccoli errori in x producono grandi errori in z.

Ciò significa che scegliere un metodo di calcolo che minimizzi le derivate parziali è un vero obiettivo ingegneristico — non solo una convenienza algoritmica. Hamming era pienamente consapevole di questo nel suo lavoro di analisi numerica.

Propagazione Attraverso un Prodotto

Misuri due lunghezze: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) e L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). Calcoli l'area A = L₁ × L₂.

Utilizzando la formula di propagazione dell'incertezza, calcola: (a) il valore atteso di A, (b) σ_A usando la formula σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², e (c) l'incertezza relativa σ_A/A. Mostra che l'incertezza relativa in A è uguale a √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifica questo numericamente.

Quando i Dati si Adattano Troppo Bene

Test di bontà di adattamento chi-quadrato: dati n osservazioni O_i e previsioni del modello E_i, calcola:

χ² = Σ (O_i − E_i)² / E_i

Se il modello è corretto e le misurazioni hanno varianza E_i, il valore atteso di χ² è approssimativamente ν = (numero di punti dati) − (numero di parametri adattati), chiamato gradi di libertà.

Il chi-quadrato ridotto χ²/ν dovrebbe essere approssimativamente 1.0 se i dati si adattano al modello con la quantità di dispersione attesa.

- χ²/ν >> 1: i dati variano più del previsto — il modello è sbagliato, o le incertezze sono sottostimate.

- χ²/ν << 1: i dati variano meno del previsto — sospettosamente puliti.

Il caso sospetto: se le tue misurazioni hanno σ = 0.1 ma i dati rientrano tutti entro ±0.01 della curva del modello, qualcuno ha selettivamente mantenuto le misurazioni 'buone'. Questo è bias confermatorio: scartare i dati che non concordano e mantenere i dati che concordano.

Hamming cita l'esperimento della goccia d'olio di Millikan: la misurazione del premio Nobel della carica dell'elettrone. L'analisi successiva dei quaderni di laboratorio di Millikan ha rivelato che ha applicato un giudizio non documentato per scartare le misurazioni 'anomale' — e le misurazioni mantenute si adattano sospettosamente bene.

Calcola e Interpreta il Chi-Quadrato Ridotto

Uno studente adatta un modello lineare y = ax + b a 10 punti dati, stimando 2 parametri (a e b). L'incertezza di misurazione dichiarata per ogni punto è σ = 0.5. I residui (O_i − E_i) dall'adattamento sono: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

Calcola χ², i gradi di libertà ν, e il chi-quadrato ridotto χ²/ν. Quindi interpreta il risultato: questi dati si adattano al modello bene, male, o sospettosamente bene? Cosa faresti dopo come analista dei dati?