un — Hamming Cap 27: Dati inaffidabili

un

ospite

1 / ?

torna alle lezioni

La valigetta dello statistico

Hamming apre il Capitolo 27 con una storia. Un amico statistico ai Bell Labs sospettava che le misurazioni in uno studio fossero imprecise. Ha discusso con il capo del dipartimento, che ha rifiutato di fare nuove misurazioni — 'gli strumenti hanno etichette in ottone che dicono che erano così accurati, e la mia gente è affidabile.'

Lunedì, lo statistico arrivò e disse di aver lasciato la sua valigetta sul treno e di aver perso tutti i dati. Non c'era nulla da fare se non rimisurare. Quando arrivarono le nuove misurazioni, lo statistico produsse i registri originali — mostrando quanto erano stati lontani. Non era popolare per la mossa, ma l'imprecisione era ormai innegabile.

Hamming trae una lezione ancora più dura da un altro caso: uno studio dei modelli di chiamate telefoniche, registrati dallo stesso equipaggiamento della centrale telefonica che ha instradato le chiamate. Un giorno lo statistico ha notato una chiamata fatturata a una centrale telefonica inesistente. Cercando ulteriormente, ha trovato una grande percentuale di chiamate che si collegavano — per alcuni minuti — a uffici inesistenti. La macchina stava generando dati cattivi sul suo stesso funzionamento. Non puoi fidarti di una macchina per raccogliere dati su se stessa correttamente.

Il suo terzo esempio: suo fratello al dipartimento dell'inquinamento atmosferico di Los Angeles, che ha trovato necessario smontare, rimontare e ricalibrare ogni nuovo strumento che ricevevano, indipendentemente dalle affermazioni del produttore.

La regola di Hamming: esamina sempre attentamente i dati prima di elaborarli. Rappresentali graficamente. Cerca schemi che non dovrebbero essere lì. Controlla le incoerenze. Non importa quanto sia urgente la risposta, pre-testa i dati per primo.

Errore casuale, errore sistematico e la catena di calibrazione

Pre-testare i dati

Lo studio dell'inventario di Hamming: ha ricevuto 18 mesi di registri di inventario per ~100 articoli e ha ingenuamente creduto all'assicurazione del fornitore che le incoerenze erano state rimosse. Verso la fine del progetto, ha trovato incoerenze residue — voci che non avrebbero potuto verificarsi senza errore (ad es., prelievi da inventario vuoto).

Ha concluso: 'Dovevo prima trovarli, poi eliminarli, e poi eseguire i dati da capo. Da quella esperienza ho imparato a non elaborare mai alcun dato fino a quando non l'avessi prima esaminato attentamente per errori.'

Descrivi tre controlli di coerenza specifici che applicheresti a un nuovo set di dati prima di fidarti per l'analisi. Per ogni controllo, spiega che tipo di errore catturebbe — e perché quel tipo di errore potrebbe esistere nei dati nonostante le assicurazioni del fornitore.

Due tipi di errore

Ogni misurazione fisica porta con sé due tipi di errore:

Errore casuale: variazione imprevedibile attorno al valore vero. Segue una distribuzione (spesso approssimativamente gaussiana) centrata sul valore vero. Gli errori casuali si annullano con la media: prendi abbastanza misurazioni e la media si avvicina al valore vero.

Errore sistematico (bias): un offset coerente in una direzione. Tutte le tue misurazioni sono spostate dello stesso importo. Nessuna quantità di media lo rimuove, perché la media di molte misurazioni distorte è comunque distorta.

L'esempio di Hamming dalla fisica: una tabella delle 10 costanti fondamentali (velocità della luce, numero di Avogadro, carica dell'elettrone, ecc.) è stata compilata, e poi ricompilata 24 anni dopo con strumenti migliorati. In media, i nuovi valori sono caduti 5.267 volte fuori dalle barre di errore dichiarate precedentemente. Questo non è plausibile solo dall'errore casuale — errori casuali così grandi sarebbero rilevabili. La spiegazione: i vecchi strumenti avevano errori sistematici non catturati nell'incertezza dichiarata, e le tecniche stesse avevano un difetto comune trasmesso attraverso la comunità.

L'osservazione di Shannon: 'La calibrazione è la cosa più importante nella misurazione.' La calibrazione affronta l'errore sistematico. Se il tuo strumento legge costantemente il 3% troppo alto, nessuna quantità di misurazione ripetuta lo risolve — devi calibrare.

Identificare l'errore sistematico

La costante di Hubble: il tasso al quale l'universo si espande, misurato dalla relazione redshift-distanza delle galassie. Molteplici gruppi indipendenti l'hanno misurata negli ultimi 50 anni. Storicamente, molti dei valori pubblicati sono caduti al di fuori delle barre di errore di altri valori pubblicati — il che significa che i disaccordi erano più grandi di quanto le incertezze dichiarate prevedessero.

Spiega perché misurazioni indipendenti della costante di Hubble potrebbero ciascuna avere piccoli errori casuali dichiarati ma comunque disaccordi di importi più grandi di questi errori. Quale tipo di errore causa questo schema, e come lo distingueresti dall'errore casuale sperimentalmente?

Come testi quello che non puoi testare?

Hamming pone un problema senza una soluzione pulita, ma che ogni ingegnere praticante finisce per affrontare: Come testi un dispositivo per l'affidabilità quando il testing stesso richiede più tempo di quello che hai, e la tua attrezzatura di test è meno affidabile del dispositivo che stai testando?

Lo scenario: un dispositivo deve durare 20 anni sul campo (175.000 ore). Il tuo laboratorio di prova di durata è valutato per 10.000 ore di funzionamento. Il tuo budget di periodo di test è di 3 mesi (circa 2.000 ore). Ci si aspetta che il dispositivo affronti temperature di funzionamento fino a 85°C sul campo.

Test accelerato: esegui il dispositivo a 105°C e assumi che i guasti si verifichino 10× più velocemente che a 85°C (una regola pratica comune dell'ingegneria). Quindi 2.000 ore a 105°C 'rappresenta' 20.000 ore a 85°C. Ma è davvero così?

Il problema: il modo di guasto a 105°C potrebbe essere diverso dal modo di guasto a 85°C. Se i giunti saldati si guastano per fatica termica a 85°C ma per ossidazione a 105°C, il test accelerato non ti dice nulla di utile sulla durata di vita sul campo.

Il consiglio di Shannon si applica: la calibrazione — capire cosa misura effettivamente la tua misurazione — è il passo critico. Il test accelerato calibra la temperatura rispetto al tasso di guasto solo se il modo di guasto è lo stesso. Verificare questo richiede uno studio separato.

Progetta una prova di durata

Sei un ingegnere dell'affidabilità per un dispositivo medico impiantato nel corpo umano. Deve durare 10 anni (87.600 ore). Il tuo budget di laboratorio consente 6 mesi di test (4.380 ore). Il dispositivo funziona a temperatura corporea (37°C).

Qual è il problema fondamentale nel semplicemente eseguire test accelerati a 50°C o 60°C ed estrapolando per prevedere l'affidabilità di 10 anni? Descrivi almeno due modi di guasto specifici che il test accelerato potrebbe perdere o caratterizzare male, e spiega quale prova aggiuntiva raccoglieresti per validare l'estrapolazione.