un — هندسة البيانات غير الموثوقة

un

ضيف

1 / ?

المتوسط والتباين والانحياز

كل قياس x_i لقيمة صحيحة μ يمكن كتابته على النحو التالي: x_i = μ + β + ε_i، حيث β هو الخطأ المنتظم (الانحياز، ثابت عبر القياسات) و ε_i هو الخطأ العشوائي (يختلف لكل قياس، مأخوذ من توزيع بمتوسط 0).

الخطأ العشوائي: E[ε_i] = 0, Var[ε_i] = σ². المتوسط العينة x̄ = (1/n) Σ x_i له قيمة متوقعة μ + β وتباين σ²/n. عندما n → ∞, x̄ → μ + β (وليس μ). الخطأ العشوائي يقترب من الصفر؛ لكن الانحياز يبقى.

الخطأ المنتظم: β ≠ 0، ثابت. متوسط أي عدد من القياسات هو μ + β. لإزالة الانحياز، تحتاج إلى المعايرة (قياس مستقل لـ β)، وليس مزيداً من التكرارات.

هندسياً: تخيل توزيع القياسات كمنحنى ناقوسي. الخطأ العشوائي يتحكم في العرض (التباين). الخطأ المنتظم يتحكم في موقع المركز (المتوسط ينزاح عن القيمة الصحيحة بمقدار β).

عدم اليقين المذكور في القياس عادة ما يكون تقديراً لـ σ (الخطأ العشوائي فقط). إذا كان β كبيراً وغير مكتشف، فإن عدم اليقين المذكور لا معنى له — فهو يحدد كمية الضوضاء في أداة منحازة.

انتشار الخطأ: عدم اليقين من خلال الدوال

حساب الانحياز مقابل التباين

تقيس معملٌ ثابت الجاذبية g. أداتهم لديها خطأ معايرة منتظم β = +0.05 m/s². خطأهم في القياس العشوائي له انحراف معياري σ = 0.02 m/s². يأخذون n = 100 قياس.

القيمة الحقيقية: g = 9.80 m/s².

احسب: (أ) القيمة المتوقعة لمتوسط عينتهم x̄، (ب) الخطأ المعياري لمتوسط عينتهم (عدم اليقين في x̄ بسبب الخطأ العشوائي فقط)، (ج) فترة الثقة 95٪ التي سيبلغون عنها (بافتراض أنهم غير مدركين للانحياز)، و(د) ما إذا كانت القيمة الحقيقية تقع ضمن هذه الفترة. أظهر جميع الحسابات.

كيف تنتقل الأخطاء من خلال الحسابات

عندما تحسب كمية z = f(x, y) من كميات مقاسة x و y، تنتشر أخطاء قياسها إلى z.

صيغة انتشار الخطأ (توسع تايلور من الرتبة الأولى):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(يفترض هذا أن أخطاء x و y مستقلة. إذا كانت مرتبطة، أضف 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

الفكرة الرئيسية: المشتقات الجزئية تعمل كـ مضاعفات. إذا كان ∂f/∂x كبيراً، فإن الأخطاء الصغيرة في x تنتج أخطاء كبيرة في z.

هذا يعني أن اختيار طريقة حساب تقلل المشتقات الجزئية هو هدف هندسي حقيقي — وليس مجرد ملاءمة خوارزمية. كان هامينج يدرك هذا تماماً في عمل تحليله العددي.

الانتشار من خلال منتج

تقيس طولين: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) و L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). تحسب المساحة A = L₁ × L₂.

باستخدام صيغة انتشار عدم اليقين، احسب: (أ) القيمة المتوقعة لـ A، (ب) σ_A باستخدام الصيغة σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂²، و(ج) عدم اليقين النسبي σ_A/A. أظهر أن عدم اليقين النسبي في A يساوي √[(σ₁/L₁)² + (σ₂/L₂)²]. تحقق من هذا عددياً.

عندما تتناسب البيانات بشكل جيد جداً

اختبار حسن توافق مربع كاي: بناءً على n ملاحظة O_i و تنبؤات نموذج E_i، احسب:

χ² = Σ (O_i − E_i)² / E_i

إذا كان النموذج صحيحاً والقياسات لها تباين E_i، فإن القيمة المتوقعة لـ χ² هي تقريباً ν = (عدد نقاط البيانات) − (عدد المعاملات المفصولة)، يسمى درجات الحرية.

مربع كاي المختزل χ²/ν يجب أن يكون تقريباً 1.0 إذا تناسب البيانات النموذج بكمية التشتت المتوقعة.

- χ²/ν >> 1: البيانات تتغير أكثر من المتوقع — النموذج خاطئ، أو عدم اليقين مقلل.

- χ²/ν << 1: البيانات تتغير أقل من المتوقع — مريب جداً نظيف.

الحالة المريبة: إذا كانت قياساتك لها σ = 0.1 لكن البيانات كلها تقع ضمن ±0.01 من منحنى النموذج، فقد احتفظ شخص ما ب 'القياسات الجيدة' بشكل انتقائي. هذا هو الانحياز التأكيدي: التخلص من البيانات غير المتفق معها والاحتفاظ بالبيانات التي تتفق.

يستشهد هامينج بتجربة قطرة الزيت لـ ميليكان: القياس الفائز بجائزة نوبل لشحنة الإلكترون. كشفت التحليلات اللاحقة لدفاتر ميليكان المخبرية أنه طبق حكماً غير موثق للتخلص من القياسات 'الشاذة' — والقياسات المحتفظ بها تناسبت بشكل مريب جيداً.

احسب وفسّر مربع كاي المختزل

يناسب طالب نموذج خطي y = ax + b مع 10 نقاط بيانات، بتقدير 2 معامل (a و b). عدم اليقين في القياس المذكور لكل نقطة هو σ = 0.5. البقايا (O_i − E_i) من التناسب هي: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

احسب χ²، درجات الحرية ν، ومربع كاي المختزل χ²/ν. ثم فسّر النتيجة: هل تناسبت هذه البيانات النموذج بشكل جيد، سيء، أم بشكل مريب جيد؟ ماذا ستفعل بعد ذلك محلل البيانات؟