un — Hamming Rozdział 27: Niedokładne dane

un

gość

1 / ?

powrót do lekcji

Teczka statystyka

Hamming otwiera Rozdział 27 opowieścią. Przyjaciel - statystyk z Bell Labs podejrzewał, że pomiary w badaniu były niedokładne. Sprzeciwił się szefowi wydziału, który odmówił powtórzenia pomiarów — „instrumenty mają mosiężne etykiety mówiące, że są tak dokładne, a moi ludzie są rzetelni."

W poniedziałek statystyk pojawił się i powiedział, że zostawił swoją teczkę w pociągu i stracił wszystkie dane. Nie było innego wyjścia niż powtórzenie pomiarów. Kiedy nowe pomiary przybyły, statystyk wydobył oryginalne zapisy — pokazując jak bardzo były błędne. Nie był popularny za ten ruch, ale niedokładność była teraz nieodparta.

Hamming wyciąga ostrzejszą lekcję z innego przypadku: badanie wzorów połączeń telefonicznych, rejestrowanych przez ten sam sprzęt centralny, który te połączenia realizował. Pewnego dnia statystyk zauważył połączenie fakturowane do nieistniejącej centrali. Badając dalej, odkrył, że duży procent połączeń łączył się — przez kilka minut — z nieistniejącymi centralami. Maszyna generowała złe dane o własnej pracy. Nie możesz ufać maszynie, że zbiera dane o sobie poprawnie.

Jego trzeci przykład: jego brat w Los Angeles Air Pollution, który uznał za konieczne demontaż, ponowny montaż i rekalibrację każdego nowego otrzymanego instrumentu, niezależnie od twierdzeń producenta.

Zasada Hamminga: zawsze dokładnie sprawdzaj dane zanim je przetworzysz. Wykreśl je. Poszukaj wzorców, które tam nie powinny być. Sprawdź spójność. Niezależnie od tego, jak pilna jest odpowiedź, najpierw pretestuj dane.

Błąd losowy, błąd systematyczny & łańcuch kalibracji

Wstępne testowanie danych

Badanie inwentaryzacyjne Hamminga: otrzymał 18 miesięcy rejestrów inwentarza dla ~100 pozycji i naiwnie wierzył w zapewnienie dostawcy, że niespójności zostały usunięte. Pod koniec projektu odkrył pozostałe niespójności — wpisy, które nie mogły się zdarzyć bez błędu (np. wycofania z pustego inwentarza).

Doszedł do wniosku: „Musiałem je najpierw znaleźć, potem je wyeliminować, a następnie uruchomić dane wszystko od nowa. Z tego doświadczenia nauczyłem się nigdy nie przetwarzać żadnych danych, dopóki najpierw nie sprawdzę ich dokładnie pod kątem błędów."

Opisz trzy specifyczne kontrole spójności, które byś zastosował do nowego zestawu danych zanim byś mu zaufał do analizy. Dla każdej kontroli wyjaśnij, jaki typ błędu by chwycić — i dlaczego ten typ błędu może istnieć w danych pomimo zapewnień dostawcy.

Dwa rodzaje błędu

Każdy fizyczny pomiar niesie ze sobą dwa typy błędu:

Błąd losowy: nieprzewidywalna zmienność wokół wartości rzeczywistej. Podlega rozkładowi (często w przybliżeniu Gaussowskiemu) scentrowaniu na wartość rzeczywistą. Błędy losowe się znoszą przy uśrednianiu: weź wystarczająco dużo pomiarów a średnia zbliża się do wartości rzeczywistej.

Błąd systematyczny (bias): stałe przesunięcie w jednym kierunku. Wszystkie twoje pomiary są przesunięte o tę samą ilość. Żadna ilość uśredniania go nie usuwa, ponieważ średnia wielu pomiarów obciążonych jest nadal obciążona.

Przykład Hamminga z fizyki: tabela 10 fundamentalnych stałych (prędkość światła, liczba Avogadra, ładunek elektronu, itd.) została skompilowana, a następnie ponownie skompilowana 24 lata później ulepszonymi instrumentami. Średnio, nowe wartości wypadły 5,267 raza poza stare podane słupki błędu. To nie jest wiarygodne z samego błędu losowego — błędy losowe tak duże byłyby wykrywalne. Wyjaśnienie: stare instrumenty miały błędy systematyczne nie ujęte w podanej niepewności, a same techniki miały wspólną wadę przesłaną przez społeczność.

Uwaga Shannona: „Kalibracja to najważniejsza rzecz w pomiarze." Kalibracja zajmuje się błędem systematycznym. Jeśli twój instrument konsekwentnie czyta 3% za wysoko, żadna ilość powtarzanego pomiaru tego nie naprawia — musisz kalibrować.

Identyfikacja błędu systematycznego

Stała Hubble'a: tempo, w jakim wszechświat się rozszerza, mierzone na podstawie redshift-odległości relacji galaktyk. Wiele niezależnych grup zmierzyło to w ciągu ostatnich 50 lat. Historycznie, wiele opublikowanych wartości wypadło poza słupkami błędu innych opublikowanych wartości — co oznacza, że niezgodności były większe niż niedokładności przewidywane przez podane niepewności.

Wyjaśnij dlaczego niezależne pomiary stałej Hubble'a mogą każdy mieć małe podane błędy losowe ale nadal się różnić o ilości większe niż te błędy. Jaki typ błędu powoduje ten wzorzec, i jak byś go eksperymentalnie odróżnił od błędu losowego?

Jak testujesz to, czego nie możesz testować?

Hamming stawia problem bez czystego rozwiązania, ale z którym każdy inżynier praktykujący ostatecznie się zmierza: Jak testujesz urządzenie na niezawodność gdy samo testowanie trwa dłużej niż masz, a twój sprzęt testowy jest mniej niezawodny niż urządzenie które testujesz?

Scenariusz: urządzenie musi trwać 20 lat w terenie (175 000 godzin). Twoje laboratorium testów żywotności ma ocenę na 10 000 godzin pracy. Twój budżet okresu testów to 3 miesiące (około 2 000 godzin). Urządzenie spodziewa się napotykać temperatury operacyjne do 85°C w terenie.

Testowanie przyspieszone: uruchom urządzenie w 105°C i załóż że uszkodzenia następują 10× szybciej niż w 85°C (ogólna zasada inżynierska). Wtedy 2 000 godzin w 105°C 'reprezentuje' 20 000 godzin w 85°C. Ale czy rzeczywiście?

Problem: tryb uszkodzenia w 105°C może być inny niż tryb uszkodzenia w 85°C. Jeśli połączenia lutowane ulegają awarii przez zmęczenie termiczne w 85°C ale przez utlenianie w 105°C, test przyspieszony mówi ci nic przydatnego o żywotności w terenie.

Rada Shannona ma zastosowanie: kalibracja — zrozumienie co twój pomiar rzeczywiście mierzy — to kluczowy krok. Testowanie przyspieszone kalibruje temperaturę przeciw szybkości uszkodzenia tylko jeśli tryb uszkodzenia jest taki sam. Weryfikacja tego wymaga osobnego badania.

Zaprojektuj test żywotności

Jesteś inżynierem niezawodności dla urządzenia medycznego wszczepianego w ludzkie ciało. Musi trwać 10 lat (87 600 godzin). Twój budżet laboratoryjny pozwala na 6 miesięcy testów (4 380 godzin). Urządzenie działa w temperaturze ciała (37°C).

Jakie jest fundamentalny problem z prostym uruchomieniem testów przyspieszonych w 50°C lub 60°C i ekstrapolacją aby przewidzieć 10-letniej niezawodność? Opisz co najmniej dwa specifyczne tryby uszkodzenia które test przyspieszony może przeoczyć lub źle scharakteryzować, i wyjaśnij jakie dodatkowe dowody byś zebrał aby walidować ekstrapolację.