un — अविश्वसनीय डेटा की ज्यामिति

un

guest

1 / ?

back to lessons

माध्य, विचरण, और पूर्वाग्रह

एक सच्चे मान μ के प्रत्येक माप x_i को इस प्रकार लिखा जा सकता है: x_i = μ + β + ε_i, जहां β व्यवस्थित त्रुटि (पूर्वाग्रह, माप के बीच स्थिर) है और ε_i यादृच्छिक त्रुटि है (प्रत्येक माप के लिए अलग, माध्य 0 वाले वितरण से खींची गई)।

यादृच्छिक त्रुटि: E[ε_i] = 0, Var[ε_i] = σ²। नमूना माध्य x̄ = (1/n) Σ x_i का अपेक्षित मान μ + β और विचरण σ²/n है। जैसे n → ∞, x̄ → μ + β (μ नहीं)। यादृच्छिक त्रुटि शून्य हो जाती है; पूर्वाग्रह नहीं।

व्यवस्थित त्रुटि: β ≠ 0, स्थिर। किसी भी संख्या में मापों का माध्य μ + β है। पूर्वाग्रह को हटाने के लिए, आपको अंशांकन (β का एक स्वतंत्र माप) की आवश्यकता है, अधिक दोहराव की नहीं।

ज्यामितीय रूप से: मापों के वितरण को एक घंटी वक्र के रूप में कल्पना करें। यादृच्छिक त्रुटि चौड़ाई (विचरण) को नियंत्रित करती है। व्यवस्थित त्रुटि केंद्र के स्थान को नियंत्रित करती है (माध्य सच्चे मान से β द्वारा विस्थापित होता है)।

एक माप में बताई गई अनिश्चितता आमतौर पर σ (केवल यादृच्छिक त्रुटि) का अनुमान है। यदि β बड़ा है और अनपहचाना है, तो बताई गई अनिश्चितता अर्थहीन है — यह एक पक्षपाती यंत्र में शोर को मापती है।

त्रुटि प्रसार: कार्यों के माध्यम से अनिश्चितता

पूर्वाग्रह बनाम विचरण गणना

एक प्रयोगशाला गुरुत्वाकर्षण स्थिरांक g को मापती है। उनके यंत्र में β = +0.05 m/s² की व्यवस्थित अंशांकन त्रुटि है। उनकी यादृच्छिक माप त्रुटि का मानक विचलन σ = 0.02 m/s² है। वे n = 100 माप लेते हैं।

सच्चा मान: g = 9.80 m/s²।

गणना करें: (a) उनके नमूना माध्य x̄ का अपेक्षित मान, (b) उनके नमूना माध्य की मानक त्रुटि (केवल यादृच्छिक त्रुटि के कारण x̄ में अनिश्चितता), (c) 95% विश्वास अंतराल जिसकी वे रिपोर्ट करेंगे (यह मानते हुए कि वे पूर्वाग्रह से अनजान हैं), और (d) क्या सच्चा मान उस अंतराल के भीतर है। सभी गणनाएँ दिखाएँ।

त्रुटियां गणना के माध्यम से कैसे चलती हैं

जब आप मापे गए मात्राओं x और y से एक मात्रा z = f(x, y) की गणना करते हैं, तो उनकी माप त्रुटियां z में प्रसारित होती हैं।

त्रुटि प्रसार सूत्र (प्रथम-क्रम टेलर विस्तार):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(यह मानता है कि x और y त्रुटियां स्वतंत्र हैं। यदि संबंधित हैं, तो 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y) जोड़ें।)

मुख्य अंतर्दृष्टि: आंशिक अवकलज प्रवर्धक के रूप में कार्य करते हैं। यदि ∂f/∂x बड़ा है, तो x में छोटी त्रुटियां z में बड़ी त्रुटियां उत्पन्न करती हैं।

इसका मतलब है कि एक गणना विधि चुनना जो आंशिक अवकलजों को कम करती है, एक वास्तविक इंजीनियरिंग उद्देश्य है — केवल कलन विधि सुविधा नहीं। हैमिंग अपने संख्यात्मक विश्लेषण कार्य में इसके प्रति तीव्रता से सचेत थे।

एक उत्पाद के माध्यम से प्रसार

आप दो लंबाइयां मापते हैं: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) और L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2)। आप क्षेत्र A = L₁ × L₂ की गणना करते हैं।

अनिश्चितता के प्रसार सूत्र का उपयोग करके, गणना करें: (a) A का अपेक्षित मान, (b) σ_A सूत्र σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂² का उपयोग करते हुए, और (c) सापेक्ष अनिश्चितता σ_A/A। दिखाएं कि A में सापेक्ष अनिश्चितता √[(σ₁/L₁)² + (σ₂/L₂)²] के बराबर है। इसे संख्यात्मक रूप से सत्यापित करें।

जब डेटा बहुत अच्छी तरह से फिट हो

ची-वर्ग अच्छाई-का-फिट परीक्षण: n अवलोकन O_i और मॉडल भविष्यवाणियां E_i दी गई, गणना करें:

χ² = Σ (O_i − E_i)² / E_i

यदि मॉडल सही है और माप में विचरण E_i है, तो χ² का अपेक्षित मान लगभग ν = (डेटा बिंदुओं की संख्या) − (फिट किए गए पैरामीटर की संख्या), जिसे स्वतंत्रता की डिग्री कहा जाता है।

कम ची-वर्ग χ²/ν लगभग 1.0 होना चाहिए यदि डेटा अपेक्षित मात्रा में बिखराव के साथ मॉडल में फिट हो।

- χ²/ν >> 1: डेटा अपेक्षा से अधिक भिन्न होता है — मॉडल गलत है, या अनिश्चितताओं को कम आंका गया है।

- χ²/ν << 1: डेटा अपेक्षा से कम भिन्न होता है — संदिग्ध रूप से स्वच्छ।

संदिग्ध मामला: यदि आपके माप में σ = 0.1 है लेकिन डेटा सभी मॉडल वक्र के ±0.01 के भीतर गिरते हैं, तो किसी ने चुनिंदा रूप से 'अच्छे' माप रखे हैं। यह पुष्टि पूर्वाग्रह है: डेटा को त्यागना जो असहमत है और डेटा को बनाए रखना जो सहमत है।

हैमिंग मिलिकन के तेल की बूंद प्रयोग का हवाला देते हैं: इलेक्ट्रॉन चार्ज का नोबेल पुरस्कार विजेता माप। मिलिकन की प्रयोगशाला नोटबुक के बाद के विश्लेषण से पता चला कि उन्होंने 'बाहरी' मापों को त्यागने के लिए अदस्तावेज़ निर्णय लागू किए — और संरक्षित मापों को संदिग्ध रूप से अच्छी तरह से फिट किया।

कम ची-वर्ग की गणना और व्याख्या करें

एक छात्र 10 डेटा बिंदुओं के लिए एक रैखिक मॉडल y = ax + b फिट करता है, 2 पैरामीटर (a और b) का अनुमान लगाते हुए। प्रत्येक बिंदु के लिए बताई गई माप अनिश्चितता σ = 0.5 है। फिट से अवशेष (O_i − E_i) हैं: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06।

χ², स्वतंत्रता की डिग्री ν, और कम ची-वर्ग χ²/ν की गणना करें। फिर परिणाम की व्याख्या करें: क्या यह डेटा मॉडल को अच्छी तरह से, खराब तरीके से, या संदिग्ध रूप से अच्छी तरह से फिट करता है? एक डेटा विश्लेषक के रूप में आप आगे क्या करेंगे?