un — هندسة ما تقيسه تحصل عليه

un

ضيف

1 / ?

فضاء القيمة مقابل فضاء القياس

نمذج العالم كفضاءين:

فضاء القيمة V: مجموعة حالات العالم فيما يتعلق بما تهتم به فعلاً. النقاط في V تمثل مستويات مختلفة من الكمية الأساسية الحقيقية (تعلم الطالب، التقدم العسكري، الرفاهية الاقتصادية).

فضاء القياس M: مجموعة القيم التي يمكن للمقياس أن يأخذها. المقياس هو دالة f: V → M — تعيين من فضاء القيمة إلى فضاء القياس.

مقياس صحيح هو الذي يكون فيه f قريباً من تساوي المسافات في المنطقة ذات الصلة: التغييرات المتساوية في M تتوافق مع تغييرات متساوية في V. النقاط القريبة في M تتوافق مع نقاط قريبة في V.

مقياس مشوه هو الذي يكون فيه f غير متساوي المسافات: المقياس يضغط بعض مناطق V (يجعل التغييرات الكبيرة غير مرئية) و يوسع آخرين (يجعل التغييرات الصغيرة تبدو كبيرة). معايرة الذكاء هي تشويه مصمم: تعيّن توزيع الدرجات الخام إلى توزيع غاوسي في M، بغض النظر عن التوزيع الحقيقي للذكاء في V.

قانون جودهارت بلغة التعيين: عندما يصبح M هدفاً، يطبق الوكلاء صعود التدرج في M. لأن f هو تشويه، صعود التدرج في M لا يتوافق مع صعود التدرج في V. يتحرك الوكيل في M دون التحرك (أو يتحرك للخلف) في V.

تشويه المقياس: فضاء القيمة مقابل فضاء القياس

اختبار صحة المقياس

تقوّم شركة أداء الموظفين على مقياس من 1 إلى 5 نجوم. تم معايرة المقياس بحيث يحصل 80% من الموظفين على 3 أو أعلى. يتم استخدام نظام تقييم الأداء لكل من قرارات التعويض (حيث يكون ترتيب الرتبة مهماً) و خطط التحسين (حيث يكون المستوى المطلق مهماً).

هل هذا المقياس أقرب إلى تعيين متساوي المسافات أم إلى تعيين مشوه للأداء الحقيقية؟ اشرح باستخدام مفاهيم الضغط و التوسع. بعد ذلك: لأي حالة استخدام (التعويض أم خطط التحسين) يهم التشويه أكثر، و لماذا؟

صعود التدرج في الفضاء الخاطئ

نمذج مسألة التحسين هندسياً. دع V = فضاء القيمة (التعلم الحقيقي للطالب، التقدم العسكري، إلخ) و M = فضاء القياس (درجات الاختبار، أعداد الضحايا، إلخ).

تدرج القيمة الحقيقية: ∇_V(value) يشير في الاتجاه في V الذي يزيد من الكمية الأساسية التي تهتم بها.

تدرج المقياس: ∇_M(metric) يشير في الاتجاه في M الذي يزيد من المقياس.

لأن f: V → M ليست متساوي المسافات، تدرج المقياس في فضاء القيمة (f(∇_M)) لا يتوافق مع ∇_V. الزاوية بينهما، θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))، تقيس شدة فشل جودهارت.

إذا كان θ = 0: تدرج المقياس و تدرج القيمة يشيران في نفس الاتجاه. تحسين المقياس يحسّن القيمة. لا فساد جودهارت.

إذا كان θ = 90°: تدرج المقياس متعامد مع القيمة. تحسين المقياس يتحرك في M دون التحرك في V على الإطلاق.

إذا كان θ = 180°: تدرج المقياس يشير في الاتجاه المعاكس للقيمة. تحسين المقياس يضعف القيمة بفعالية.

عندما يصبح المقياس هدفاً ويطبق الوكلاء صعود التدرج على المقياس، يتبعون f*(∇_M)، وليس ∇_V. يزداد تباعد الزاوية θ مع الوقت مع تحسين المقياس — يصبح التعيين f أقل متساوي مسافات حيث يجد الوكلاء المناطق حيث ∇_M و ∇_V متباعد أكثر، لأن تلك هي المسارات الأكثر كفاءة لتحسين المقياس.

قياس التباعد

تأمل فضاء قيمة بسيط ثنائي الأبعاد V = (skill, compliance) حيث skill = الفهم الفعلي للطالب، compliance = قدرة الطالب على اتباع إجراءات الاختبار.

مقياس الاختبار M = 0.3 × skill + 0.7 × compliance (مزيج خطي محدد، حيث يحتوي compliance على وزن 70%).

في هذا النموذج ثنائي الأبعاد، تدرج المقياس هو المتجه (0.3, 0.7) في فضاء (skill, compliance). يحسّن الطالب المقياس بتحسين compliance فقط (يتحرك في اتجاه (0, 1) في فضاء القيمة). احسب كوساين الزاوية بين تدرج المقياس و اتجاه المهارة البحتة (1, 0). اشرح: هل تدرج المقياس محاذي جيداً مع 'تحسين المهارة' (θ صغير) أم محاذي بشكل سيء (θ كبير)؟ ماذا يتنبأ هذا عما يحدث عندما يحسّن الطلاب المقياس؟

التحسين متعدد الأهداف كدفاع ضد جودهارت

دفاع همينج: استخدم عدة مقاييس في نفس الوقت. التفسير الهندسي: بدلاً من تحسين دالة هدف واحدة f(x)، حسّن على متجه من الأهداف F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

بالنسبة للهدف المتجهي، مفهوم الحل هو حدود باريتو: مجموعة الحلول حيث لا يمكن تحسين أي هدف دون تدهور آخر. تحل حدود باريتو محل الحد الأقصى الواحد.

لماذا يدافع هذا ضد جودهارت: لتحسين المقاييس، يجب على الوكيل العقلاني إيجاد اتجاه في فضاء القيمة يزيد جميع fᵢ في نفس الوقت (أو على الأقل المقاييس التي يتم الحكم عليه بناءً عليها). إذا كانت المقاييس مستقلة بدرجة كافية — اتجاهات تدرجها غير متوازية بدرجة كافية — فلا يوجد اتجاه كهذا. تحسين أحد المقاييس يضعف آخر.

درجة الدفاع: إذا كانت متجهات التدرج k للمقياس تمتد على الفضاء k-البعدي (مستقلة خطياً)، فإن تحسين أي مجموعة فرعية مناسبة من المقاييس يضعف قياس مستبعد واحد على الأقل. يتطلب الدفاع الكامل باريتو أن لا يوجد اتجاه تحسين يزيد جميع المقاييس.

ثبات القياس: مقياس M ثابت فيما يتعلق بالسمة غير ذات الصلة α إذا M(x + δα) = M(x) للتغييرات δ في α. مقياس الذكاء ليس ثابتاً فيما يتعلق بممارسة الاختبار: يتغير الذكاء عندما يمارس الطلاب الاختبار دون مكاسب حقيقية في البناء الأساسي.

تصميم نظام مقاييس محمي باريتو

تأمل تقييم عالم أبحاث على نظام مقياسين: M₁ = منشورات في السنة، M₂ = معدل الاستشهاد لكل ورقة (استشهادات لكل ورقة).

اشرح هندسياً لماذا يكون هذان المقياسان معاً أصعب في التلاعب بهما من أي مقياس وحده. على وجه التحديد: صف استراتيجية لتحسين M₁ وحده، و استراتيجية لتحسين M₂ وحده، ثم أظهر أن كل من تلك الاستراتيجيات تضعف المقياس الآخر. بعد ذلك: هل توجد أي استراتيجية تلاعب متبقية تزيد كلا المقياسين في نفس الوقت دون إنتاج قيمة بحثية حقيقية، و إن كانت موجودة، فما هي؟