فضاء القيمة مقابل فضاء القياس
نمذج العالم كفضاءين:
فضاء القيمة V: مجموعة حالات العالم فيما يتعلق بما تهتم به فعلاً. النقاط في V تمثل مستويات مختلفة من الكمية الأساسية الحقيقية (تعلم الطالب، التقدم العسكري، الرفاهية الاقتصادية).
فضاء القياس M: مجموعة القيم التي يمكن للمقياس أن يأخذها. المقياس هو دالة f: V → M — تعيين من فضاء القيمة إلى فضاء القياس.
مقياس صحيح هو الذي يكون فيه f قريباً من تساوي المسافات في المنطقة ذات الصلة: التغييرات المتساوية في M تتوافق مع تغييرات متساوية في V. النقاط القريبة في M تتوافق مع نقاط قريبة في V.
مقياس مشوه هو الذي يكون فيه f غير متساوي المسافات: المقياس يضغط بعض مناطق V (يجعل التغييرات الكبيرة غير مرئية) و يوسع آخرين (يجعل التغييرات الصغيرة تبدو كبيرة). معايرة الذكاء هي تشويه مصمم: تعيّن توزيع الدرجات الخام إلى توزيع غاوسي في M، بغض النظر عن التوزيع الحقيقي للذكاء في V.
قانون جودهارت بلغة التعيين: عندما يصبح M هدفاً، يطبق الوكلاء صعود التدرج في M. لأن f هو تشويه، صعود التدرج في M لا يتوافق مع صعود التدرج في V. يتحرك الوكيل في M دون التحرك (أو يتحرك للخلف) في V.
اختبار صحة المقياس
تقوّم شركة أداء الموظفين على مقياس من 1 إلى 5 نجوم. تم معايرة المقياس بحيث يحصل 80% من الموظفين على 3 أو أعلى. يتم استخدام نظام تقييم الأداء لكل من قرارات التعويض (حيث يكون ترتيب الرتبة مهماً) و خطط التحسين (حيث يكون المستوى المطلق مهماً).
صعود التدرج في الفضاء الخاطئ
نمذج مسألة التحسين هندسياً. دع V = فضاء القيمة (التعلم الحقيقي للطالب، التقدم العسكري، إلخ) و M = فضاء القياس (درجات الاختبار، أعداد الضحايا، إلخ).
تدرج القيمة الحقيقية: ∇_V(value) يشير في الاتجاه في V الذي يزيد من الكمية الأساسية التي تهتم بها.
تدرج المقياس: ∇_M(metric) يشير في الاتجاه في M الذي يزيد من المقياس.
لأن f: V → M ليست متساوي المسافات، تدرج المقياس في فضاء القيمة (f(∇_M)) لا يتوافق مع ∇_V. الزاوية بينهما، θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))، تقيس شدة فشل جودهارت.
إذا كان θ = 0: تدرج المقياس و تدرج القيمة يشيران في نفس الاتجاه. تحسين المقياس يحسّن القيمة. لا فساد جودهارت.
إذا كان θ = 90°: تدرج المقياس متعامد مع القيمة. تحسين المقياس يتحرك في M دون التحرك في V على الإطلاق.
إذا كان θ = 180°: تدرج المقياس يشير في الاتجاه المعاكس للقيمة. تحسين المقياس يضعف القيمة بفعالية.
عندما يصبح المقياس هدفاً ويطبق الوكلاء صعود التدرج على المقياس، يتبعون f*(∇_M)، وليس ∇_V. يزداد تباعد الزاوية θ مع الوقت مع تحسين المقياس — يصبح التعيين f أقل متساوي مسافات حيث يجد الوكلاء المناطق حيث ∇_M و ∇_V متباعد أكثر، لأن تلك هي المسارات الأكثر كفاءة لتحسين المقياس.
قياس التباعد
تأمل فضاء قيمة بسيط ثنائي الأبعاد V = (skill, compliance) حيث skill = الفهم الفعلي للطالب، compliance = قدرة الطالب على اتباع إجراءات الاختبار.
مقياس الاختبار M = 0.3 × skill + 0.7 × compliance (مزيج خطي محدد، حيث يحتوي compliance على وزن 70%).
التحسين متعدد الأهداف كدفاع ضد جودهارت
دفاع همينج: استخدم عدة مقاييس في نفس الوقت. التفسير الهندسي: بدلاً من تحسين دالة هدف واحدة f(x)، حسّن على متجه من الأهداف F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
بالنسبة للهدف المتجهي، مفهوم الحل هو حدود باريتو: مجموعة الحلول حيث لا يمكن تحسين أي هدف دون تدهور آخر. تحل حدود باريتو محل الحد الأقصى الواحد.
لماذا يدافع هذا ضد جودهارت: لتحسين المقاييس، يجب على الوكيل العقلاني إيجاد اتجاه في فضاء القيمة يزيد جميع fᵢ في نفس الوقت (أو على الأقل المقاييس التي يتم الحكم عليه بناءً عليها). إذا كانت المقاييس مستقلة بدرجة كافية — اتجاهات تدرجها غير متوازية بدرجة كافية — فلا يوجد اتجاه كهذا. تحسين أحد المقاييس يضعف آخر.
درجة الدفاع: إذا كانت متجهات التدرج k للمقياس تمتد على الفضاء k-البعدي (مستقلة خطياً)، فإن تحسين أي مجموعة فرعية مناسبة من المقاييس يضعف قياس مستبعد واحد على الأقل. يتطلب الدفاع الكامل باريتو أن لا يوجد اتجاه تحسين يزيد جميع المقاييس.
ثبات القياس: مقياس M ثابت فيما يتعلق بالسمة غير ذات الصلة α إذا M(x + δα) = M(x) للتغييرات δ في α. مقياس الذكاء ليس ثابتاً فيما يتعلق بممارسة الاختبار: يتغير الذكاء عندما يمارس الطلاب الاختبار دون مكاسب حقيقية في البناء الأساسي.
تصميم نظام مقاييس محمي باريتو
تأمل تقييم عالم أبحاث على نظام مقياسين: M₁ = منشورات في السنة، M₂ = معدل الاستشهاد لكل ورقة (استشهادات لكل ورقة).