सांख्यिकीविद् का ब्रीफकेस
हैमिंग अध्याय 27 की शुरुआत एक कहानी से करते हैं। बेल लैब्स में एक सांख्यिकीविद् दोस्त को संदेह था कि एक अध्ययन में माप गलत थे। वह विभाग प्रमुख से बहस करते हैं, जिन्होंने पुनर्माप को मना कर दिया — 'उपकरणों पर पीतल की पट्टियां हैं जो कहती हैं कि वे सटीक हैं, और मेरे लोग विश्वसनीय हैं।'
सोमवार को, सांख्यिकीविद् कहते हैं कि उन्होंने अपना ब्रीफकेस ट्रेन में छोड़ दिया था और सभी डेटा खो गया। दोबारा मापने के अलावा कोई विकल्प नहीं था। जब नए माप आए, तो सांख्यिकीविद् ने मूल रिकॉर्ड निकाले — दिखाते हुए कि वे कितना गलत थे। इस कदम के लिए वह लोकप्रिय नहीं थे, लेकिन अशुद्धि अब निर्विवाद थी।
हैमिंग एक कठोर सबक दूसरे मामले से निकालते हैं: फोन कॉल पैटर्न का एक अध्ययन, उसी केंद्रीय कार्यालय उपकरण द्वारा दर्ज किया जा रहा था जिसने कॉल रखी थीं। एक दिन सांख्यिकीविद् को पता चला कि एक कॉल एक गैर-मौजूद केंद्रीय कार्यालय के लिए बिल की जा रही थी। आगे देखते हुए, उन्हें पता चला कि कॉल का एक बड़ा प्रतिशत — कुछ मिनटों के लिए — गैर-मौजूद कार्यालयों से जुड़ रहा था। मशीन अपने स्वयं के संचालन के बारे में खराब डेटा उत्पन्न कर रही थी। आप एक मशीन पर भरोसा नहीं कर सकते कि यह अपने बारे में सही तरीके से डेटा एकत्र करे।
तीसरा उदाहरण: लॉस एंजिल्स वायु प्रदूषण विभाग में उनके भाई, जिन्हें हर नया उपकरण जो उन्हें मिला, उसे अलग करना, फिर से जोड़ना, और पुनः अंशांकित करना आवश्यक पाया गया, निर्माता के दावों की परवाह किए बिना।
हैमिंग का नियम: हमेशा डेटा को संसाधित करने से पहले सावधानी से परीक्षा करें। इसे आरेखित करें। ऐसे पैटर्न खोजें जो वहां नहीं होने चाहिए। असंगतियों की जांच करें। उत्तर कितना भी जरूरी क्यों न हो, पहले डेटा का पूर्वपरीक्षण करें।
डेटा का पूर्वपरीक्षण
हैमिंग का सूची अध्ययन: उन्हें ~100 वस्तुओं के लिए 18 महीने के सूची रिकॉर्ड प्राप्त हुए और वह आपूर्तिकर्ता के आश्वासन को भोलेपन से मानते थे कि असंगतियों को हटा दिया गया था। परियोजना के अंत में, उन्हें अवशिष्ट असंगतियां मिलीं — ऐसी प्रविष्टियां जो त्रुटि के बिना नहीं हो सकती थीं (उदा., खाली सूची से निकासी)।
उन्होंने निष्कर्ष निकाला: 'मुझे पहले उन्हें खोजना था, फिर उन्हें समाप्त करना था, और फिर सभी डेटा को फिर से चलाना था। उस अनुभव से मैंने कभी भी किसी डेटा को संसाधित करने से पहले सावधानी से त्रुटियों के लिए जांचना शुरू नहीं करना सीखा।'
दो प्रकार की त्रुटि
प्रत्येक भौतिक माप दो प्रकार की त्रुटि रखता है:
यादृच्छिक त्रुटि: सत्य मान के चारों ओर अप्रत्याशित भिन्नता। यह एक वितरण (अक्सर लगभग गाउसियन) का पालन करता है जो सत्य मान पर केंद्रित है। यादृच्छिक त्रुटियां औसत के साथ रद्द हो जाती हैं: पर्याप्त माप लें और माध्य सत्य मान के पास पहुंचता है।
व्यवस्थागत त्रुटि (पूर्वाग्रह): एक दिशा में सुसंगत ऑफसेट। सभी आपके माप समान मात्रा से स्थानांतरित हो जाते हैं। कोई भी औसत इसे हटाता नहीं है, क्योंकि कई पक्षपाती मापों का माध्य अभी भी पक्षपाती है।
हैमिंग का भौतिकी से उदाहरण: 10 मौलिक स्थिरांक (प्रकाश की गति, एवोगैड्रो की संख्या, इलेक्ट्रॉन का आवेश, आदि) की एक तालिका संकलित की गई थी, और फिर 24 साल बाद बेहतर उपकरणों के साथ फिर से संकलित की गई थी। औसतन, नए मान पुराने बताई गई त्रुटि पट्टियों के 5.267 गुना बाहर गिरे। यह अकेले यादृच्छिक त्रुटि से प्रशंसनीय नहीं है — इतनी बड़ी यादृच्छिक त्रुटियां पहचानी जा सकती हैं। व्याख्या: पुरानी मशीनों में सांख्यिकीय अनिश्चितता में कब्जा नहीं की गई व्यवस्थागत त्रुटियां थीं, और तकनीकें स्वयं समुदाय के माध्यम से पारित एक साझा दोष थीं।
शैनन की टिप्पणी: 'अंशांकन मापन में सबसे महत्वपूर्ण बात है।' अंशांकन व्यवस्थागत त्रुटि को संबोधित करता है। यदि आपका उपकरण लगातार 3% अधिक पढ़ रहा है, तो दोहराए गए मापन का कोई भी राशि इसे ठीक नहीं करता है — आपको पुनः अंशांकित करना होगा।
व्यवस्थागत त्रुटि की पहचान
हबल स्थिरांक: दर जिस पर ब्रह्मांड विस्तार करता है, आकाशगंगाओं के लाल-स्थानांतर-दूरी संबंध से मापा जाता है। कई स्वतंत्र समूहों ने पिछले 50 वर्षों में इसे मापा है। ऐतिहासिक रूप से, प्रकाशित मानों में से कई दूसरों के प्रकाशित मानों की त्रुटि पट्टियों के बाहर गिरे थे — इसका मतलब है कि असहमतियां बताई गई अनिश्चितताओं द्वारा अनुमानित से अधिक थीं।
आप जो परीक्षण नहीं कर सकते उसे कैसे परीक्षण करते हैं?
हैमिंग एक समस्या प्रस्तुत करते हैं जिसका कोई स्वच्छ समाधान नहीं है, लेकिन जिसका सामना हर अभ्यास करने वाले इंजीनियर को अंततः करना पड़ता है: आप किसी डिवाइस को विश्वसनीयता के लिए कैसे परीक्षण करते हैं जब परीक्षण स्वयं आपके पास जो समय है उससे अधिक समय लेता है, और आपका परीक्षण उपकरण उस डिवाइस से कम विश्वसनीय है जिसे आप परीक्षण कर रहे हैं?
परिदृश्य: एक डिवाइस को क्षेत्र में 20 साल तक चलना चाहिए (175,000 घंटे)। आपकी जीवन-परीक्षण प्रयोगशाला 10,000 घंटे के संचालन के लिए है। आपकी परीक्षण अवधि बजट 3 महीने (लगभग 2,000 घंटे) है। डिवाइस को क्षेत्र में 85°C तक के संचालन तापमान का सामना करना अपेक्षित है।
त्वरित परीक्षण: डिवाइस को 105°C पर चलाएं और मान लें कि विफलताएं 85°C की तुलना में 105°C पर 10 गुना तेजी से होती हैं (एक सामान्य इंजीनियरिंग अंगूठे का नियम)। फिर 105°C पर 2,000 घंटे 85°C पर 20,000 घंटे का 'प्रतिनिधित्व' करते हैं। लेकिन क्या वह करता है?
समस्या: 105°C पर विफलता मोड 85°C पर विफलता मोड से अलग हो सकता है। यदि सोल्डर जोड़ 85°C पर थर्मल थकान द्वारा विफल होते हैं लेकिन 105°C पर ऑक्सीकरण द्वारा, तो त्वरित परीक्षण आपको क्षेत्र जीवनकाल के बारे में कुछ भी उपयोगी नहीं बताता है।
शैनन की सलाह लागू होती है: अंशांकन — समझना कि आपका माप वास्तव में क्या मापता है — महत्वपूर्ण कदम है। त्वरित परीक्षण केवल तभी तापमान को विफलता दर के विरुद्ध अंशांकित करता है जब विफलता मोड समान हो। इसका सत्यापन एक अलग अध्ययन की आवश्यकता है।
जीवन परीक्षण डिजाइन करें
आप मानव शरीर में लगाए गए एक चिकित्सा डिवाइस के लिए एक विश्वसनीयता इंजीनियर हैं। इसे 10 साल (87,600 घंटे) तक चलना चाहिए। आपकी प्रयोगशाला बजट 6 महीने की परीक्षा (4,380 घंटे) की अनुमति देता है। डिवाइस शरीर के तापमान (37°C) पर काम करता है।