मूल्य अंतरिक्ष V और माप अंतरिक्ष M
संसार को दो अंतरिक्ष के रूप में मॉडल करें:
मूल्य अंतरिक्ष V: जिसे आप वास्तव में चिंतित हैं उसके संबंध में संसार के विभिन्न स्थितियों की सेट। V में बिंदु वास्तविक निहित मात्रा (विद्यार्थी सीखने, सैन्य प्रगति, आर्थिक कल्याण) के स्तर का प्रतिनिधित्व करते हैं।
माप अंतरिक्ष M: जिसे मेट्रिक ले सकती है। एक मेट्रिक एक फलन f: V → M है - मूल्य अंतरिक्ष से माप अंतरिक्ष में मानचित्रण।
एक सक्षम माप वह है जहां f प्रासंगिक क्षेत्र में एक आइसोमेट्री के करीब है: M में समान परिवर्तन V में समान परिवर्तन का प्रतिनिधित्व करते हैं। M में निकटतम बिंदु V में निकटतम बिंदु का प्रतिनिधित्व करते हैं।
एक विकृत माप वह है जहां f एक नॉन-आइसोमेट्रिक है: मेट्रिक कुछ क्षेत्रों को संपीड़ित करती है (बड़े परिवर्तन को निर्दोष बना देती है) और अन्यों को विस्तारित करती है (छोटे परिवर्तन को बड़ा दिखा देती है। रॉ स्कोर वितरण को M में एक गौसियन में MAP किया गया है, चाहे वास्तविक वितरण V में बुद्धिमत्ता का सच हो।
गुडहार्ट का नियम मानचित्रण शब्दों में: जब M एक लक्ष्य बन जाता है, तो एजेंट M में ग्रेडिएंट बढ़ाते हैं। क्योंकि f एक विकृति है, M में ग्रेडिएंट बढ़ाने से V में ग्रेडिएंट बढ़ाने का संबंध नहीं होता है। एजेंट M में चलते हैं बिना चलते हैं (या पीछे चलने के लिए) V।
माप की वैधता का परीक्षण
एक कंपनी को कर्मचारी प्रदर्शन का मूल्यांकन 1-5 स्टार स्केल पर करती है। स्केल को तौर पर कि 80% कर्मचारी 3 या अधिक प्राप्त करते हैं। प्रदर्शन समीक्षा प्रणाली का उपयोग स्थानीयकरण निर्णय (जहां रैंक-आधार महत्वपूर्ण है) और सुधार योजना (जहां ठीक स्तर महत्वपूर्ण है) के लिए किया जाता है।
ग्रेडिएंट का वृद्धि गलत स्थान में
ऑप्टिमाइजेशन प्रॉब्लम को भौगोलिक रूप से मॉडल करें। V = मूल्य स्थान (वास्तविक विद्यार्थी सीखने, सैन्य प्रगति आदि) और M = मेट्रिक स्थान (परीक्षा स्कोर, शारीरिक गिनती, आदि)।
वास्तविक मूल्य का ग्रेडिएंट: ∇_V(value) वी में उस आप ज्यादा चिंता करते हैं वाली मात्रा को बढ़ाने की दिशा में है।
मेट्रिक का ग्रेडिएंट: ∇_M(metric) एम में उस मापदंड को बढ़ाने की दिशा में है।
क्योंकि f: V → M एक इसोमेट्रिक नहीं है, मूल्य स्थान में मेट्रिक का ग्रेडिएंट (f(∇_M)) ∇_V के साथ संरेखित नहीं होता है। उनके बीच का कोण, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), गुडहार्ट के विफल की गंभीरता को मापता है।
यदि θ = 0: मेट्रिक ग्रेडिएंट और मूल्य ग्रेडिएंट एक ही दिशा में इशारा करते हैं। मेट्रिक को अनुकूलित करने से मूल्य अनुकूलित होता है। कोई गुडहार्ट की भ्रष्टाचार नहीं।
यदि θ = 90°: मेट्रिक ग्रेडिएंट वैल्यू के साथ लंब होता है। मेट्रिक को अनुकूलित करने से एम में बढ़ोतरी होती है लेकिन वी में नहीं।
यदि θ = 180°: मेट्रिक ग्रेडिएंट वैल्यू के विपरीत इशारा करता है। मेट्रिक को अनुकूलित करने से वैल्यू को सक्रिय रूप से नुकसान होता है।
जब मेट्रिक एक लक्ष्य बन जाती है और एजेंट मेट्रिक पर ग्रेडिएंट वृद्धि के लिए ग्रेडिएंट वृद्धि करते हैं, वे f*(∇_M) का पालन करते हैं, नहीं ∇_V। कोण θ समय के साथ बढ़ता है क्योंकि एजेंट्स मेट्रिक को गेम करते हैं - मैपिंग f को सबसे अधिक कुशल मार्ग ढूंढने के लिए जहां ∇_M और ∇_V सबसे अधिक विभक्त होते हैं, क्योंकि वे हैं सबसे अधिक गेमिंग के लिए पथ।
विचलन को मापना
एक सरल दो-आयामी मूल्य स्थान V = (स्किल, compliance) जहां स्किल = छात्र की वास्तविक समझ, compliance = छात्र की परीक्षा लेने की प्रक्रिया की क्षमता को ध्यान में रखता है।
एक परीक्षा मेट्रिक M = 0.3 × स्किल + 0.7 × compliance (एक विशेष लाइनर संयोजन, जहां compliance का 70% वजन है।)
मल्टी-ऑब्जेक्टिव ऑप्टिमाइजेशन गुडहार्ट के खिलाफ बचाव के रूप में
हैमिंग का बचाव: एक साथ कई मेट्रिक्स का उपयोग करें। ज्यामितीय व्याख्या: एक सिंगल ऑब्जेक्टिव फंक्शन f(x) को अधिकतम करने के बजाय, वेक्टर उद्देश्यों पर ऑप्टिमाइज़ करें F(x) = (f₁(x), f₂(x), ..., fₖ(x))।
एक वेक्टर उद्देश्य के लिए, समाधान अवधारणा पेरो फ्रंटियर है: उन समाधानों की सेटिंग जहां कोई उद्देश्य अन्य को बेहतर बनाने के लिए सुधार सकता है बिना दूसरे को बिगाड़ें। पेरो फ्रंटियर को एकल ऑप्टिमम रिप्लेस करता है।
इसकी वजह से यह गुडहार्ट का बचाव करता है: मेट्रिक्स को गेम करने के लिए, एक रैशनल एजेंट को माने वैल्यू स्पेस में एक दिशा ढूंढनी होगी जो सभी fᵢ को एक साथ बढ़ाती हो (या कम से कम उन मेट्रिक्स पर जिन पर उन्हें जज किया जा रहा है। अगर मेट्रिक्स पर्याप्त रूप से स्वतंत्र होती हैं - उनकी ग्रेडिएंट दिशाएं पर्याप्त रूप से नॉन-पेरेलल होती हैं - तो ऐसी कोई दिशा नहीं होती। एक मेट्रिक को गेम करने के लिए दूसरी मेट्रिक पर नुकसान होता है।
बचाव का डिग्री: अगर क मेट्रिक ग्रेडिएंट के वेक्टर का क-आयामी स्थान (लाइनियर इंडिपेंडेंस) को कवर करते हैं, तो किसी भी उचित उप-खंड की मेट्रिक को अनदेखी की गई मेट्रिक पर नुकसान होता है। पूर्ण पेरेटो बचाव के लिए यह सुनिश्चित करना होगा कि सभी मेट्रिक्स को सुधारने वाली कोई गेमिंग दिशा नहीं होती।
मापने की इनवेरिएंस: एक मेट्रिक M को अनिर्देश्य गुण α के प्रति इनवेरिएंट माना जाता है अगर M(x + δα) = M(x) जब δ में परिवर्तन होता है। IQ मेट्रिक टेस्ट-टेकिंग प्रैक्टिस के प्रति इनवेरिएंट नहीं होती: IQ तब बदल जाता है जब छात्र वास्तविक निर्माण के प्रति वृद्धि के बिना टेस्ट को प्रैक्टिस करते हैं।
पेरेटो-संरक्षित मेट्रिक सिस्टम डिज़ाइन करें
एक अनुसंधान वैज्ञानिक की विचार-विमर्श को दो-मेट्रिक सिस्टम से मापें: M₁ = प्रकाशन प्रति वर्ष, M₂ = संदर्भ दर प्रति पत्र (संदर्भ प्रति पत्र।