English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

सांख्यिकीविद् का ब्रीफकेस

हैमिंग अध्याय 27 की शुरुआत एक कहानी से करते हैं। बेल लैब्स में एक सांख्यिकीविद् दोस्त को संदेह था कि एक अध्ययन में माप गलत थे। वह विभाग प्रमुख से बहस करते हैं, जिन्होंने पुनर्माप को मना कर दिया — 'उपकरणों पर पीतल की पट्टियां हैं जो कहती हैं कि वे सटीक हैं, और मेरे लोग विश्वसनीय हैं।'

सोमवार को, सांख्यिकीविद् कहते हैं कि उन्होंने अपना ब्रीफकेस ट्रेन में छोड़ दिया था और सभी डेटा खो गया। दोबारा मापने के अलावा कोई विकल्प नहीं था। जब नए माप आए, तो सांख्यिकीविद् ने मूल रिकॉर्ड निकाले — दिखाते हुए कि वे कितना गलत थे। इस कदम के लिए वह लोकप्रिय नहीं थे, लेकिन अशुद्धि अब निर्विवाद थी।

हैमिंग एक कठोर सबक दूसरे मामले से निकालते हैं: फोन कॉल पैटर्न का एक अध्ययन, उसी केंद्रीय कार्यालय उपकरण द्वारा दर्ज किया जा रहा था जिसने कॉल रखी थीं। एक दिन सांख्यिकीविद् को पता चला कि एक कॉल एक गैर-मौजूद केंद्रीय कार्यालय के लिए बिल की जा रही थी। आगे देखते हुए, उन्हें पता चला कि कॉल का एक बड़ा प्रतिशत — कुछ मिनटों के लिए — गैर-मौजूद कार्यालयों से जुड़ रहा था। मशीन अपने स्वयं के संचालन के बारे में खराब डेटा उत्पन्न कर रही थी। आप एक मशीन पर भरोसा नहीं कर सकते कि यह अपने बारे में सही तरीके से डेटा एकत्र करे।

तीसरा उदाहरण: लॉस एंजिल्स वायु प्रदूषण विभाग में उनके भाई, जिन्हें हर नया उपकरण जो उन्हें मिला, उसे अलग करना, फिर से जोड़ना, और पुनः अंशांकित करना आवश्यक पाया गया, निर्माता के दावों की परवाह किए बिना।

हैमिंग का नियम: हमेशा डेटा को संसाधित करने से पहले सावधानी से परीक्षा करें। इसे आरेखित करें। ऐसे पैटर्न खोजें जो वहां नहीं होने चाहिए। असंगतियों की जांच करें। उत्तर कितना भी जरूरी क्यों न हो, पहले डेटा का पूर्वपरीक्षण करें।

यादृच्छिक त्रुटि, व्यवस्थागत त्रुटि & अंशांकन श्रृंखला

डेटा का पूर्वपरीक्षण

हैमिंग का सूची अध्ययन: उन्हें ~100 वस्तुओं के लिए 18 महीने के सूची रिकॉर्ड प्राप्त हुए और वह आपूर्तिकर्ता के आश्वासन को भोलेपन से मानते थे कि असंगतियों को हटा दिया गया था। परियोजना के अंत में, उन्हें अवशिष्ट असंगतियां मिलीं — ऐसी प्रविष्टियां जो त्रुटि के बिना नहीं हो सकती थीं (उदा., खाली सूची से निकासी)।

उन्होंने निष्कर्ष निकाला: 'मुझे पहले उन्हें खोजना था, फिर उन्हें समाप्त करना था, और फिर सभी डेटा को फिर से चलाना था। उस अनुभव से मैंने कभी भी किसी डेटा को संसाधित करने से पहले सावधानी से त्रुटियों के लिए जांचना शुरू नहीं करना सीखा।'

तीन विशिष्ट सामंजस्य जांच का वर्णन करें जो आप विश्लेषण के लिए विश्वास करने से पहले एक नए डेटासेट पर लागू करेंगे। प्रत्येक जांच के लिए, समझाएं कि यह त्रुटि का कौन सा प्रकार पकड़ेगा — और यह प्रकार की त्रुटि आपूर्तिकर्ता के आश्वासन के बावजूद डेटा में क्यों मौजूद हो सकती है।

दो प्रकार की त्रुटि

प्रत्येक भौतिक माप दो प्रकार की त्रुटि रखता है:

यादृच्छिक त्रुटि: सत्य मान के चारों ओर अप्रत्याशित भिन्नता। यह एक वितरण (अक्सर लगभग गाउसियन) का पालन करता है जो सत्य मान पर केंद्रित है। यादृच्छिक त्रुटियां औसत के साथ रद्द हो जाती हैं: पर्याप्त माप लें और माध्य सत्य मान के पास पहुंचता है।

व्यवस्थागत त्रुटि (पूर्वाग्रह): एक दिशा में सुसंगत ऑफसेट। सभी आपके माप समान मात्रा से स्थानांतरित हो जाते हैं। कोई भी औसत इसे हटाता नहीं है, क्योंकि कई पक्षपाती मापों का माध्य अभी भी पक्षपाती है।

हैमिंग का भौतिकी से उदाहरण: 10 मौलिक स्थिरांक (प्रकाश की गति, एवोगैड्रो की संख्या, इलेक्ट्रॉन का आवेश, आदि) की एक तालिका संकलित की गई थी, और फिर 24 साल बाद बेहतर उपकरणों के साथ फिर से संकलित की गई थी। औसतन, नए मान पुराने बताई गई त्रुटि पट्टियों के 5.267 गुना बाहर गिरे। यह अकेले यादृच्छिक त्रुटि से प्रशंसनीय नहीं है — इतनी बड़ी यादृच्छिक त्रुटियां पहचानी जा सकती हैं। व्याख्या: पुरानी मशीनों में सांख्यिकीय अनिश्चितता में कब्जा नहीं की गई व्यवस्थागत त्रुटियां थीं, और तकनीकें स्वयं समुदाय के माध्यम से पारित एक साझा दोष थीं।

शैनन की टिप्पणी: 'अंशांकन मापन में सबसे महत्वपूर्ण बात है।' अंशांकन व्यवस्थागत त्रुटि को संबोधित करता है। यदि आपका उपकरण लगातार 3% अधिक पढ़ रहा है, तो दोहराए गए मापन का कोई भी राशि इसे ठीक नहीं करता है — आपको पुनः अंशांकित करना होगा।

व्यवस्थागत त्रुटि की पहचान

हबल स्थिरांक: दर जिस पर ब्रह्मांड विस्तार करता है, आकाशगंगाओं के लाल-स्थानांतर-दूरी संबंध से मापा जाता है। कई स्वतंत्र समूहों ने पिछले 50 वर्षों में इसे मापा है। ऐतिहासिक रूप से, प्रकाशित मानों में से कई दूसरों के प्रकाशित मानों की त्रुटि पट्टियों के बाहर गिरे थे — इसका मतलब है कि असहमतियां बताई गई अनिश्चितताओं द्वारा अनुमानित से अधिक थीं।

व्याख्या करें कि हबल स्थिरांक के स्वतंत्र माप प्रत्येक में छोटी बताई गई यादृच्छिक त्रुटि हो सकते हैं लेकिन फिर भी उन त्रुटियों से बड़ी राशि से असहमत हो सकते हैं। कौन सी प्रकार की त्रुटि यह पैटर्न का कारण बनती है, और आप इसे यादृच्छिक त्रुटि से प्रायोगिक रूप से अलग कैसे करेंगे?

आप जो परीक्षण नहीं कर सकते उसे कैसे परीक्षण करते हैं?

हैमिंग एक समस्या प्रस्तुत करते हैं जिसका कोई स्वच्छ समाधान नहीं है, लेकिन जिसका सामना हर अभ्यास करने वाले इंजीनियर को अंततः करना पड़ता है: आप किसी डिवाइस को विश्वसनीयता के लिए कैसे परीक्षण करते हैं जब परीक्षण स्वयं आपके पास जो समय है उससे अधिक समय लेता है, और आपका परीक्षण उपकरण उस डिवाइस से कम विश्वसनीय है जिसे आप परीक्षण कर रहे हैं?

परिदृश्य: एक डिवाइस को क्षेत्र में 20 साल तक चलना चाहिए (175,000 घंटे)। आपकी जीवन-परीक्षण प्रयोगशाला 10,000 घंटे के संचालन के लिए है। आपकी परीक्षण अवधि बजट 3 महीने (लगभग 2,000 घंटे) है। डिवाइस को क्षेत्र में 85°C तक के संचालन तापमान का सामना करना अपेक्षित है।

त्वरित परीक्षण: डिवाइस को 105°C पर चलाएं और मान लें कि विफलताएं 85°C की तुलना में 105°C पर 10 गुना तेजी से होती हैं (एक सामान्य इंजीनियरिंग अंगूठे का नियम)। फिर 105°C पर 2,000 घंटे 85°C पर 20,000 घंटे का 'प्रतिनिधित्व' करते हैं। लेकिन क्या वह करता है?

समस्या: 105°C पर विफलता मोड 85°C पर विफलता मोड से अलग हो सकता है। यदि सोल्डर जोड़ 85°C पर थर्मल थकान द्वारा विफल होते हैं लेकिन 105°C पर ऑक्सीकरण द्वारा, तो त्वरित परीक्षण आपको क्षेत्र जीवनकाल के बारे में कुछ भी उपयोगी नहीं बताता है।

शैनन की सलाह लागू होती है: अंशांकन — समझना कि आपका माप वास्तव में क्या मापता है — महत्वपूर्ण कदम है। त्वरित परीक्षण केवल तभी तापमान को विफलता दर के विरुद्ध अंशांकित करता है जब विफलता मोड समान हो। इसका सत्यापन एक अलग अध्ययन की आवश्यकता है।

जीवन परीक्षण डिजाइन करें

आप मानव शरीर में लगाए गए एक चिकित्सा डिवाइस के लिए एक विश्वसनीयता इंजीनियर हैं। इसे 10 साल (87,600 घंटे) तक चलना चाहिए। आपकी प्रयोगशाला बजट 6 महीने की परीक्षा (4,380 घंटे) की अनुमति देता है। डिवाइस शरीर के तापमान (37°C) पर काम करता है।

50°C या 60°C पर त्वरित परीक्षण चलाने और 10-वर्षीय विश्वसनीयता की भविष्यवाणी करने के लिए बस बाहर निकालने की मौलिक समस्या क्या है? कम से कम दो विशिष्ट विफलता मोड का वर्णन करें जो त्वरित परीक्षण को याद कर सकते हैं या गलत विशेषता दे सकते हैं, और समझाएं कि आप बाहर निकालने को सत्यापित करने के लिए कौन सा अतिरिक्त साक्ष्य इकट्ठा करेंगे।