un

guest
1 / ?
back to lessons

مساحة القيمة ضد مساحة القياس

تعد العالم كمساحتين:

مساحة القيمة V: مجموعة الدول المتمثلة في العالم بالنسبة لما تهمك حقًا. النقاط في V تمثل مستويات مختلفة من الكمية الحقيقية الخفية (تعلم الطالب، التقدم العسكري، رفاهية الاقتصاد).

مساحة القياس M: مجموعة القيم التي يمكن أن تأخذها القياس. القياس هو دالة f: V → M - خريطة من مساحة القيمة إلى مساحة القياس.

قياس صحيح هو الذي يكون f قريبًا من انزياح الأيزومتري في المنطقة ذات الصلة: التغيرات المتساوية في M تتوافق مع التغيرات المتساوية في V. النقاط القريبة في M تتمثل في النقاط القريبة في V.

قياس مضلل هو الذي يكون f غير انزياحي: يقصر بعض المناطق من V (جعل التغيرات الكبيرة غير مرئية) وتوسع أخرى (جعل التغيرات الصغيرة تبدو كبيرة). التكيف مع مقياس الذكاء هو مضلل مصمم: يقوم بترتيب توزيع النتيجة الخام إلى جاوسي في M، بغض النظر عن توزيع الذكاء الحقيقي في V.

قانون غودهارت في مصطلحات الخريطة: عندما تصبح Mเป الهدف، تقوم الوكالات بارتفاع درجة الميل في M. لأن f هو مضلل، لا يتوافق ارتفاع درجة الميل في M مع ارتفاع درجة الميل في V. تقوم الوكالة بالحركة في M بدون حركة (أو حركة بالعكس) في V.

مضلل القياس: مساحة القيمة ضد مساحة القياس

اختبار صحة قياس

تقييم شركة تقييم أداء الموظفين على مقياس نجمة من 1 إلى 5. يتم تثبيت المقياس بحيث يبلغ 80% من الموظفين 3 أو أعلى. نظام تقييم الأداء يستخدم للاعتبارات التعويض (حيث يهم الترتيب الرقمي) وخطط التحسين (حيث يهم المستوى абсолютي).

هل هذا القياس أقرب إلى خريطة انزياح أيزومتري أو مضللة من الأداء الحقيقي؟ توضح باستخدام مفاهيم الضغط والانتفاخ. ثم: في حالة الاستخدام (تعويض أو خطط التحسين) التي يهم أكثر، ومتىذا؟

التركيب الجيوديسي في الفضاء الخاطئ

تحدد المشكلة التكيفية هندسيًا. أذ V = الفضاء القيم (التعلم الفعلي للطالب، التقدم العسكري، الخ.) و M = الفضاء القياسي (النتائج الامتحانية، عدد القتلى، الخ.)

معدل التكيف الفعلي: ∇_V(القيمة) يشير في V إلى الاتجاه الذي يزيد من الكمية الأساسية التي تهتم بها.

معدل التكيف القياسي: ∇_M(القياس) يشير في M إلى الاتجاه الذي يزيد القياس.

لأن f: V → M ليست دالة التمثيل، فإن معدل التكيف القياسي في الفضاء القيم (f(∇_M)) ليس متساويًا مع ∇_V. الزاوية بينهما، θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), تقيس خطورة الفشل الناجم عن جودهارت.

إذا كانت θ = 0: معدل التكيف القياسي ومعدل التكيف الفعلي يشيران في الاتجاه نفسه. تتميز القياسات بتكيف القيم. لا توجد تلوث جودهارت.

إذا كانت θ = 90°: معدل التكيف القياسي متعامد على القيمة. تتميز القياسات بالتحرك في M بدون حركة في V على الإطلاق.

إذا كانت θ = 180°: معدل التكيف القياسي يوجه في الاتجاه المعاكس للقيمة. تتميز القياسات بتحسين القيم.

عندما تصبح القياسات هدفًا ويدخل الوكلاء في التكيف على القياس، يتبعون f*(∇_M)، وليس ∇_V. تتزايد زاوية التشتت θ مع الوقت عندما يتم تلاعب القياس - تصبح دالة التمثيل f أقل دالة التمثيل حيث يجد الوكلاء المناطق التي تتفاوت ∇_M و∇_V، لأن تلك المناطق هي أهم مسارات للاستغلال.

قياس التشتت

考虑一个简单的二维空间值 V = (技能,遵从性) ,其中技能 = 学生的实际理解,遵从性 = 学生的能力遵循测试程序。

一个测试指标 M = 0.3 × 技能 + 0.7 ×遵从性(一个特定的线性组合,其中遵从性权重为70%)。

في هذا نموذج ثنائي الأبعاد، هو الميل للقياس هو المحور (0.3، 0.7) في مساحة (المهارة، التطبيق). يتناسب الطالب القياس بتحسين التطبيق فقط (الانتقال في الاتجاه (0، 1) في مساحة القيمة). حسب الميل الزاوي بين الميل للقياس والمحور (المهارة فقط) (1، 0). توضح: هل الميل للقياس يتوافق جيدًا مع 'زيادة المهارة' (θ صغير) أو لا يتوافق بشكل جيد (θ كبير)? ماذا يتوقع هذا من تطور الطلاب عند ت оптимизيتهم لهذا القياس؟

多目标优化作为防御Goodhart

汉明的防御:同时使用多个指标。几何解释:不是最大化一个单一的目标函数 f(x),而是优化一个向量目标 F(x) = (f₁(x),f₂(x),...,fₖ(x))。

对于向量目标,解决方案概念是 帕累托前沿:改进一个目标没有降低另一个目标的集合。帕累托前沿取代了单一的最优解。

لماذا يحمي هذا ضد غودارت: لخداع المؤشرات، يجب على एजنت منطقي أن يجد اتجاهًا في فضاء القيمة يزيد جميع fᵢ بشكل معين (أو على الأقل المؤشرات التي يتم تقييمها عليها). إذا كان المؤشرات كافية مستقلًا - اتجاهات الميل غير كافية متوازية - لا يوجد مثل هذا الاتجاه. خداع أحد المؤشرات يؤدي إلى تدهور للمؤشر الآخر.

درجة الحماية: إذا كان اتجاهات تناظر k للمتغيرات المؤسسة يملأ الفضاء الكوني (غير مستقلين خطيًا)، فإن تتميم أي مجموعة صحيحة من المؤشرات يؤدي إلى تدهور على الأقل للمؤشر المنسحب. الحماية الكاملة الباريتو تتطلب أن لا يوجد اتجاه للهروب يتحسن جميع المؤشرات.

استقرار القياس: إذا كان المؤشر M غير متأثر بتغييرات غير متعلقة α، فإن M (x + δα) = M (x) بالنسبة لتغييرات δ في α. لا يمتلك المؤشر IQ استقرار القياس بالنسبة للتمرين في الاختبار: يتغير IQ عند ممارسة الطلاب للتحقق من صحة الاختبار دون تحسين حقيقي في البناء الأساسي.

صمم نظام مؤشرات محمي بالطريقة الباريتو

فكر في تقييم باحث بحثي على نظام مؤشرين: M₁ = المنشورات سنوياً، M₂ = معدل الاستشهاد لكل بحث (استشهادات لكل بحث).

شرح جيو متريا لماذا هذه المؤشرات معًا أكثر صعوبة في التلاعب بها من كل مؤشر بمفرده. تحديدا: وصف استراتيجية لزيادة M₁ بمفردها، وصف استراتيجية لزيادة M₂ بمفردها، ثم أظهر كيف أن كل من تلك الاستراتيجيات تؤدي إلى تدهور المؤشر الآخر. ثم: هل هناك أي استراتيجية للهروب المتبقية تزيد كلاهما بشكل معين دون إنتاج قيمة بحثية حقيقية، وكيف هي؟