डेटा ज्यामितीय स्थान में रहता है
सब कुछ एक सदिश है
मशीन लर्निंग में, डेटा ज्यामितीय स्थान में रहता है। N विशेषताओं वाला हर डेटा बिंदु N-आयामी स्थान में एक बिंदु है। यह एक रूपक नहीं है — यह हर एल्गोरिदम की वास्तविक गणितीय नींव है।
एक हस्तलिखित अंक की छवि (28×28 पिक्सेल) 784-आयामी स्थान में एक बिंदु है। प्रत्येक पिक्सेल एक निर्देशांक है। दो समान दिखने वाले अंक उस स्थान में पास के बिंदु हैं। दो भिन्न अंक दूर हैं।
एक शब्द एम्बेडिंग एक शब्द को 300-आयामी स्थान में एक बिंदु पर मैप करता है। समान अर्थ वाले शब्द एक ही पड़ोस में समाप्त होते हैं। 'कुत्ता' और 'पिल्ला' करीब हैं। 'कुत्ता' और 'संसद' दूर हैं।
50 विशेषताओं वाली उपयोगकर्ता प्रोफ़ाइल (आयु, खरीद इतिहास, क्लिक पैटर्न) 50-आयामी स्थान में एक बिंदु है। सिफारिश इंजन उन उपयोगकर्ताओं को खोजते हैं जो इस स्थान में 'पास' हैं और सुझाते हैं कि उनके ज्यामितीय पड़ोसियों को क्या पसंद है।
ज्यामिति यह है कि हम इन स्थानों के बारे में कैसे सोचते हैं। दूरी, दिशा, कोण, प्रक्षेपण — ये मशीन लर्निंग की मौलिक संक्रियाएँ हैं।
सदिश संक्रियाएँ — मूल निर्माण खंड
डॉट गुणनफल सब कुछ को शक्ति देता है
मशीन लर्निंग में तीन सदिश संक्रियाएँ सबसे महत्वपूर्ण हैं:
सदिश जोड़ — विशेषताओं या संकेतों को संयोजित करना। यदि आप दो शब्द सदिशों को जोड़ते हैं, तो आपको दोनों अवधारणाओं को मिश्रित करते हुए एक सदिश मिलता है।
अदिश गुणन — एक सदिश को स्केल करना उसके परिमाण को बदलता है लेकिन दिशा नहीं। ग्रेडिएंट डिसेंट में सीखने की दर अदिश गुणक हैं।
डॉट गुणनफल — यह मुख्य कार्य है। दो सदिशों a और b का डॉट गुणनफल |a||b|cos(θ) के बराबर है, जहाँ θ उनके बीच का कोण है। जब सदिश सामान्यीकृत हों (इकाई लंबाई), तो डॉट गुणनफल कोण का कोसाइन है।
कोसाइन समानता = cos(θ) = (a·b) / (|a||b|)
यह एकल सूत्र शक्ति देता है:
- खोज इंजन — एक प्रश्न के समान दस्तावेज़ खोजना
- ध्यान तंत्र — यह तय करना कि कौन से टोकन एक दूसरे के लिए महत्वपूर्ण हैं
- सिफारिश इंजन — उपयोगकर्ता प्रोफ़ाइल को आइटम प्रोफ़ाइल से मिलाना
- पुनर्प्राप्ति-संवर्धित पीढ़ी — भाषा मॉडल के लिए प्रासंगिक संदर्भ खोजना
cos(θ) = 1 का अर्थ है सदिश बिल्कुल एक ही दिशा में इशारा करते हैं (समान अर्थ)। cos(θ) = 0 का अर्थ है वे लंबवत हैं (असंबंधित)। cos(θ) = -1 का अर्थ है वे विपरीत दिशाओं में इशारा करते हैं (विरोधी अर्थ)।
कोसाइन समानता
कोसाइन समानता आधुनिक मशीन लर्निंग सिस्टम में सबसे अधिक उपयोग की जाने वाली मेट्रिक्स में से एक है।
दूरी को मापने के तीन तरीके
दूरी मेट्रिक की पसंद बदलती है कि 'समान' का क्या मतलब है
अंतरिक्ष में दो बिंदु दिए गए हैं, उनके बीच 'दूरी' को मापने के कई तरीके हैं। प्रत्येक मेट्रिक एक अलग ज्यामिति को परिभाषित करती है, और वह ज्यामिति तय करती है कि आपका मॉडल 'समान' क्या मानता है।
यूक्लिडीय दूरी (L2) — सीधी-रेखा दूरी। d = √(Σ(aᵢ - bᵢ)²)। यह 'कौआ उड़ान' जितनी दूरी है, जो आपका अंतर्ज्ञान अपेक्षा करता है। यह सभी आयामों को समान रूप से मानता है और परिमाण के प्रति संवेदनशील है।
मैनहट्टन दूरी (L1) — ग्रिड-चलने की दूरी। d = Σ|aᵢ - bᵢ|। शहर के ब्लॉकों को नेविगेट करने की तरह — आप केवल अक्षों के साथ चल सकते हैं, कभी विकर्ण नहीं। एकल आयामों में बाहरी लोगों के प्रति अधिक मजबूत क्योंकि यह अंतर को वर्गों में नहीं करता है।
कोसाइन दूरी — सदिशों के बीच के कोण को मापता है, परिमाण को पूरी तरह से अनदेखा करता है। d = 1 - cos(θ)। एक ही विषय के बारे में दो दस्तावेज़ों की लंबाई की परवाह किए बिना छोटी कोसाइन दूरी है। विभिन्न विषयों के बारे में दो समान रूप से लंबे दस्तावेज़ों की बड़ी कोसाइन दूरी है।
पसंद मनमानी नहीं है। यदि परिमाण महत्वपूर्ण है (दवा की खुराक, रिएक्टर का तापमान), यूक्लिडीय का उपयोग करें। यदि आप निरपेक्ष मानों के बजाय अनुपात की परवाह करते हैं (शब्द आवृत्ति वितरण, उपयोगकर्ता प्राथमिकता प्रोफ़ाइल), कोसाइन का उपयोग करें। यदि व्यक्तिगत सुविधा अंतर एकत्रित परिमाण की तुलना में अधिक महत्वपूर्ण हैं (दोष निदान, जहाँ एक सेंसर स्पाइक अर्थपूर्ण है), मैनहट्टन का उपयोग करें।
K-निकटतम पड़ोसी — शुद्ध ज्यामिति
KNN: सबसे सरल ज्यामितीय एल्गोरिदम
K-निकटतम पड़ोसी मशीन लर्निंग में सबसे पारदर्शी ज्यामितीय एल्गोरिदम है। इसका कोई प्रशिक्षण चरण नहीं है — यह प्रशिक्षण डेटा है।
एक नए बिंदु को वर्गीकृत करने के लिए: प्रशिक्षण डेटा में K निकटतम बिंदु खोजें। उन्हें वोट दें। बहुमत वर्ग जीतता है। यह पूरा एल्गोरिदम है।
वह निर्णय सीमा जो KNN उत्पन्न करता है वह एक वोरोनोई आरेख है — अंतरिक्ष का एक विभाजन जहाँ हर बिंदु अपने निकटतम प्रशिक्षण उदाहरण के क्षेत्र से संबंधित है। सीमाएँ आसन्न प्रशिक्षण बिंदुओं के बीच लंबवत द्विभाजक हैं।
यहाँ महत्वपूर्ण ज्यामितीय अंतर्दृष्टि है: दूरी मेट्रिक की पसंद वोरोनोई आरेख को पूरी तरह से बदलती है। यूक्लिडीय दूरी घुमावदार, वृत्ताकार सीमाएँ उत्पन्न करती है। मैनहट्टन दूरी हीरे के आकार की सीमाएँ उत्पन्न करती है। कोसाइन दूरी कोणीय, शंकु के आकार की सीमाएँ उत्पन्न करती है।
समान प्रशिक्षण डेटा। समान K। भिन्न दूरी मेट्रिक। पूरी तरह से भिन्न मॉडल। ज्यामिति मॉडल है।
दूरी मेट्रिक चुनना
दूरी मेट्रिक्स विनिमेय नहीं हैं — सही पसंद इस बात पर निर्भर करती है कि आपके डेटा के लिए 'समान' का क्या मतलब है।
हाइपरप्लेन — उच्च आयामों में समतल सीमाएँ
हर रैखिक वर्गीकरण एक हाइपरप्लेन खोजता है
एक रैखिक वर्गीकार एक समतल सतह खोजता है जो दो वर्गों को अलग करती है। इस सतह की आयामीता स्थान पर निर्भर करती है:
- 2D स्थान में, सीमा एक लाइन है (1-आयामी)
- 3D स्थान में, सीमा एक विमान है (2-आयामी)
- 784D स्थान में (MNIST अंक छवियाँ), सीमा एक 783-आयामी हाइपरप्लेन है
सामान्य पैटर्न: N-आयामी स्थान में, निर्णय सीमा एक (N-1)-आयामी समतल सतह है जिसे हाइपरप्लेन कहा जाता है।
लॉजिस्टिक प्रतिगमन, सहायक सदिश मशीनें, और एकल-परत पर्सेप्ट्रॉन सभी हाइपरप्लेन खोजक हैं। वे सर्वश्रेष्ठ हाइपरप्लेन कैसे खोजते हैं, इसमें भिन्नता है:
- लॉजिस्टिक प्रतिगमन सही वर्गीकरण की संभावना को अधिकतम करता है
- SVM ज्यामितीय मार्जिन को अधिकतम करते हैं — हाइपरप्लेन से निकटतम डेटा बिंदुओं तक की दूरी
- पर्सेप्ट्रॉन केवल कोई भी हाइपरप्लेन खोजते हैं जो डेटा को अलग करता है, इष्टतमता की कोई गारंटी नहीं
एक रैखिक वर्गीकार का भार सदिश हाइपरप्लेन का सामान्य सदिश है। पूर्वाग्रह पद हाइपरप्लेन को उत्पत्ति से दूर करता है। ये ज्यामितीय व्याख्याओं के साथ ज्यामितीय वस्तुएँ हैं।
समतल सीमाओं से परे
जब डेटा रैखिक रूप से अलग न हो
कई वास्तविक दुनिया की समस्याएँ समतल सीमा से नहीं सुलझाई जा सकतीं। बिल्लियों और कुत्तों की छवियों को वर्गीकृत करने पर विचार करें — पिक्सेल स्थान में कोई भी सदिश उन्हें स्वच्छ रूप से अलग नहीं करता है।
दो ज्यामितीय रणनीतियाँ मौजूद हैं:
रणनीति 1: कर्नल ट्रिक — डेटा को एक उच्च-आयामी स्थान में बदलें जहाँ यह रैखिक रूप से अलग है। एक शास्त्रीय उदाहरण: एक वृत्त के अंदर बिंदु (वर्ग A) और बाहर (वर्ग B) 2D में। कोई रेखा उन्हें अलग नहीं करती है। लेकिन एक तीसरा आयाम जोड़ें z = x² + y², और आंतरिक बिंदु (छोटा x² + y²) कम बैठते हैं जबकि बाहरी बिंदु (बड़ा x² + y²) ऊँचे बैठते हैं। अब एक समतल विमान उन्हें परिपूर्ण रूप से अलग करता है।
कर्नल कार्यों के साथ SVM इसे निहित रूप से करते हैं — वे उच्च-आयामी स्थान में डॉट गुणनफल की गणना करते हैं बिना कभी वास्तविक उच्च-आयामी सदिशों का निर्माण किए बिना। इसे 'कर्नल ट्रिक' कहा जाता है और यह एक शुद्ध ज्यामितीय अंतर्दृष्टि है।
रणनीति 2: तंत्रिका नेटवर्क — रैखिक परिवर्तनों को अरैखिक सक्रिय कार्यों के साथ स्टैक करें। प्रत्येक परत एक रैखिक परिवर्तन लागू करता है (मैट्रिक्स गुणा = घुमाव + स्केलिंग + कतर) और फिर एक अरैखिक 'झुकाव' (ReLU, सिग्मॉइड, tanh)। कई रैखिक-फिर-झुकाव संक्रियाओं की संरचना किसी भी निरंतर सीमा आकार को अनुमानित कर सकती है।
एक गहरी तंत्रिका नेटवर्क ज्यामितीय परिवर्तनों की एक श्रृंखला है जो इनपुट स्थान को तब तक विकृत करती है जब तक वर्ग अंतिम परत में रैखिक रूप से अलग न हो जाएँ।
गोलाकार डेटा को अलग करना
यह मशीन लर्निंग में सबसे महत्वपूर्ण ज्यामितीय समस्याओं में से एक है।
हानि सतह
प्रशिक्षण = एक सतह पर नीचे की ओर चलना
हर मशीन लर्निंग मॉडल के पैरामीटर होते हैं — भार और पूर्वाग्रह। हानि कार्य मापता है कि मॉडल की भविष्यवाणियाँ कितनी गलत हैं। साथ में, ये एक हानि सतह को परिभाषित करते हैं: एक परिदृश्य जहाँ हर बिंदु पैरामीटर मानों का एक विशिष्ट सेट से मेल खाता है, और ऊँचाई हानि है।
2 पैरामीटर वाले मॉडल के लिए, हानि सतह एक 3D परिदृश्य है जिसे आप देख सकते हैं — पहाड़ियाँ, घाटियाँ, और मैदान। 175 अरब पैरामीटर वाले मॉडल के लिए (GPT-3 जैसे), हानि सतह 175 अरब-आयामी स्थान में मौजूद है। गणित समान है।
ग्रेडिएंट डिसेंट वह एल्गोरिदम है जो इस सतह को नेविगेट करता है। ग्रेडिएंट एक ज्यामितीय वस्तु है — एक सदिश जो सबसे तीव्र आरोहण की दिशा में इशारा करता है। हानि को कम करने के लिए, विपरीत दिशा में जाएँ: ऋणात्मक ग्रेडिएंट। यह शाब्दिक रूप से नीचे की ओर चलना है।
सीखने की दर चरण आकार को नियंत्रित करती है। बहुत बड़ी और आप घाटियों से आगे निकल जाते हैं। बहुत छोटी और आप रेंगते हैं। ग्रेडिएंट आपको दिशा बताता है; सीखने की दर आपको कितनी दूर कदम रखना है यह बताता है।
काठी बिंदु, मिनिमा, और उच्च आयामों की ज्यामिति
हानि परिदृश्य एक सरल कटोरी नहीं है
प्रशिक्षण की एक भोली तस्वीर एक चिकनी कटोरी की कल्पना करती है जिसका एक सबसे निचला बिंदु है। वास्तविकता कहीं अधिक जटिल है:
स्थानीय मिनिमा — घाटियाँ जो सबसे गहरी नहीं हैं। ग्रेडिएंट डिसेंट यहाँ अटक सकता है, संतुष्ट कि हर दिशा ऊपर जाती है, भले ही एक गहरी घाटी कहीं और मौजूद हो।
काठी बिंदु — घोड़े की काठी जैसे आकार। हानि कुछ आयामों में नीचे की ओर घटती है और दूसरों में ऊपर की ओर। 2D में यह दुर्लभ है। उच्च आयामों में, काठी बिंदु स्थानीय मिनिमा की तुलना में घातीय रूप से अधिक सामान्य हैं। 1000-आयामी स्थान में एक महत्वपूर्ण बिंदु को एक स्थानीय न्यूनतम होने के लिए सभी 1000 आयामों में ऊपर की ओर घटना पड़ता है। यदि एक भी आयाम नीचे की ओर घटता है, तो यह एक काठी बिंदु है।
समतल पठार — क्षेत्र जहाँ ग्रेडिएंट शून्य के पास है। प्रशिक्षण ठहराव जाता है क्योंकि पालन करने के लिए कोई ढलान नहीं है।
तीव्र बनाम समतल मिनिमा — एक तीव्र न्यूनतम एक संकरी घाटी है। एक समतल न्यूनतम एक विस्तृत घाटी है। अनुसंधान सुझाता है कि समतल मिनिमा बेहतर सामान्य करते हैं अनदेखे डेटा के लिए, क्योंकि पैरामीटर में छोटी गड़बड़ी (नए डेटा में शोर) हानि को नाटकीय रूप से नहीं बदलती है।
गति के साथ SGD काठी बिंदुओं और तीव्र मिनिमा से बचने में मदद करता है। स्टोकेस्टिक ग्रेडिएंट डिसेंट की यादृच्छिकता सतह पर एक गेंद हिलाने जैसी है — यह संकरी जाल से उछलता है और व्यापक, समतल घाटियाँ पाता है।
SGD बनाम पूर्ण-बैच ग्रेडिएंट डिसेंट
यह मशीन लर्निंग प्रशिक्षण में सबसे महत्वपूर्ण व्यावहारिक अंतर्दृष्टियों में से एक है।
शब्द सदिशों के रूप में — शब्दार्थ अंकगणित
अर्थ की एक दिशा है
Word2Vec, GloVe, और आधुनिक ट्रांसफॉर्मर एम्बेडिंग असतत टोकन (शब्द, उप-शब्द) को निरंतर सदिश स्पेसों में मैप करते हैं। परिणाम एक ज्यामितीय दुनिया है जहाँ अर्थ के निर्देशांक हैं।
प्रसिद्ध उदाहरण: राजा - मनुष्य + महिला ≈ रानी
यह सदिश अंकगणित है। 'मनुष्य' से 'राजा' तक का सदिश अवधारणा 'पुरुषलिंग को लागू की गई रॉयल्टी' का प्रतिनिधित्व करता है। 'महिला' से 'रानी' तक का सदिश 'महिला को लागू की गई रॉयल्टी' का प्रतिनिधित्व करता है। ये सदिश लगभग समानांतर हैं — समान दिशा, समान संबंध, अलग-अलग शुरुआती बिंदु।
अन्य ज्यामितीय संबंध जो पाठ पर प्रशिक्षण से उभरते हैं:
- पेरिस - फ्रांस + इटली ≈ रोम (राजधानी-का संबंध)
- चला - चलना + तैरना ≈ तैरा (अतीत काल परिवर्तन)
- बड़ा - बड़ा + छोटा ≈ छोटा (तुलनात्मक रूप)
किसी ने इन संबंधों को प्रोग्राम नहीं किया। मॉडल ने पाया कि अर्थ में ज्यामितीय संरचना है अरबों शब्दों को पढ़कर। एम्बेडिंग स्पेस में दिशाएँ शब्दार्थ संबंधों से मेल खाती हैं। यह मशीन लर्निंग में सबसे गहरी ज्यामितीय खोजों में से एक है।
मैनिफोल्ड परिकल्पना
उच्च-आयामी डेटा कम-आयामी सतहों पर रहता है
एक 64×64 ग्रेस्केल चेहरे की छवि 4,096 पिक्सेल मान है — यह 4,096-आयामी स्थान में एक बिंदु है। लेकिन उस स्थान का हर बिंदु एक वैध चेहरा नहीं है। अधिकांश यादृच्छिक 4,096-आयामी सदिश स्टेटिक शोर जैसे दिखते हैं, चेहरे नहीं।
मैनिफोल्ड परिकल्पना कहती है कि वास्तविक दुनिया, उच्च-आयामी डेटा वास्तव में कम-आयामी घुमावदार सतहों (मैनिफोल्ड्स) पर या उनके पास रहता है जो उच्च-आयामी स्थान में एम्बेड हैं। चेहरों का मैनिफोल्ड केवल 50-आयामी हो सकता है — प्रकाश कोण, सिर की स्थिति, अभिव्यक्ति, त्वचा टोन, आयु जैसे कारकों द्वारा प्राचीन।
यह व्यावहारिक परिणामों के साथ एक ज्यामितीय दावा है:
- आयाम में कमी (PCA, t-SNE, UMAP) काम करती है क्योंकि डेटा लगभग कम-आयामी है। ये एल्गोरिदम मैनिफोल्ड खोजते हैं और इसे प्रोजेक्ट करते हैं।
- ऑटोएन्कोडर डेटा को कम-आयामी गुप्त स्थान में संपीड़ित करने और इसे पुनर्निर्माण करने के लिए सीखते हैं।
- जनरेटिव मॉडल (VAE, विसरण मॉडल) मैनिफोल्ड सीखते हैं और इसके लिए नए बिंदु नमूना करते हैं — नए चेहरे, नुई संगीत, नया पाठ उत्पन्न करना जो वास्तविक दिखता है क्योंकि यह सीखे गए मैनिफोल्ड पर निहित है।
जब आपका मॉडल सामान्य करने में विफल होता है, तो एक ज्यामितीय व्याख्या है: इसने गलत मैनिफोल्ड सीखा। प्रशिक्षण डेटा एक सतह को ट्रेस करता है जो सत्य डेटा वितरण से मेल नहीं खाता है।
सदिश सादृश्य
एम्बेडिंग स्पेस की ज्यामितीय संरचना आधुनिक मशीन लर्निंग में सबसे आश्चर्यजनक परिणामों में से एक है।
ROC वक्र — वर्गीकरण गुणवत्ता क्षेत्र के रूप में
मूल्यांकन मेट्रिक्स ज्यामितीय स्पेस में रहती हैं
एक ROC (रिसीवर ऑपरेटिंग विशेषता) वक्र True Positive दर (y-अक्ष) को False Positive दर (x-अक्ष) के विरुद्ध प्लॉट करता है जब आप 0 से 1 तक वर्गीकरण थ्रेशोल्ड को स्वीप करते हैं।
यह अर्थपूर्ण निशानों वाली एक ज्यामितीय स्पेस है:
- (0, 1) — शीर्ष-बाएँ कोने — सही वर्गीकरण। हर सकारात्मक का पता चला, शून्य झूठी अलर्ट।
- (0, 0) — नीचे-बाएँ — मॉडल सब कुछ को नकारात्मक के रूप में वर्गीकृत करता है।
- (1, 1) — शीर्ष-दाएँ — मॉडल सब कुछ को सकारात्मक के रूप में वर्गीकृत करता है।
- विकर्ण (0,0) से (1,1) तक — एक यादृच्छिक वर्गीकार। हर थ्रेशोल्ड पर, इसमें समान सत्य सकारात्मक और झूठी सकारात्मक दरें हैं।
AUC (वक्र के नीचे का क्षेत्र) शाब्दिक रूप से एक ज्यामितीय क्षेत्र माप है। AUC = 0.5 का अर्थ है मॉडल यादृच्छिक है (विकर्ण के नीचे का क्षेत्र)। AUC = 1.0 का अर्थ है सही वर्गीकरण (पूरे इकाई वर्ग)। एक अच्छे मॉडल का ROC वक्र शीर्ष-बाएँ कोने की ओर झुकता है, अधिक क्षेत्र कवर करता है।
AUC का एक सुंदर संभावनात्मक व्याख्या है: यह संभावना है कि मॉडल एक यादृच्छिक सकारात्मक उदाहरण को एक यादृच्छिक नकारात्मक उदाहरण की तुलना में अधिक स्कोर करता है। लेकिन ज्यामितीय रूप से, यह केवल क्षेत्र है — और वह ज्यामितीय सरलता इसे अंतर्ज्ञान देती है।
परिशीलन-रिकॉल स्पेस
एक भिन्न ज्यामितीय ट्रेड-ऑफ
परिशीलन-रिकॉल वक्र ROC वक्रों से भिन्न ज्यामितीय स्पेस में रहते हैं, और वे एक अलग कहानी बताते हैं।
परिशीलन = मॉडल ने सकारात्मक के रूप में जो कुछ भी संकेत दिया, उसमें से कितना वास्तव में सकारात्मक था?
रिकॉल = सभी वास्तविक सकारात्मकों में से, मॉडल ने कितना पाया?
जब आप वर्गीकरण थ्रेशोल्ड को कम करते हैं (अधिक चीजों को सकारात्मक के रूप में संकेत दें), तो रिकॉल बढ़ता है (आप अधिक वास्तविक सकारात्मकों को पकड़ते हैं) लेकिन परिशीलन आमतौर पर घटता है (आप अधिक झूठी सकारात्मकों को भी पकड़ते हैं)। यह ट्रेड-ऑफ परिशीलन-रिकॉल स्पेस में एक वक्र का पता लगाता है।
F1 स्कोर = 2 × (परिशीलन × रिकॉल) / (परिशीलन + रिकॉल) — हार्मोनिक माध्य। ज्यामितीय रूप से, F1 स्कोर परिशीलन-रिकॉल वक्र पर वह बिंदु है जहाँ परिशीलन रिकॉल के बराबर है। यह वह जगह है जहाँ वक्र परिशीलन-रिकॉल वर्ग के विकर्ण को काटता है।
औसत परिशीलन (AP) = परिशीलन-रिकॉल वक्र के नीचे का क्षेत्र। AUC-ROC की तरह, यह पूरे वक्र को एक संख्या में सारांशित करता है जो ज्यामितीय क्षेत्र का प्रतिनिधित्व करता है।
ROC वक्र और परिशीलन-रिकॉल वक्र एक ही मॉडल के पूरक ज्यामितीय विचार हैं। असंतुलित डेटासेट पर ROC वक्र भ्रामक रूप से आशावादी हो सकते हैं (99% नकारात्मक वर्ग)। परिशीलन-रिकॉल वक्र सूचनात्मक रहते हैं क्योंकि वे सकारात्मक वर्ग पर ध्यान केंद्रित करते हैं।
AUC-ROC व्याख्या
AUC-ROC ज्यामितीय रूप से क्या मापता है, यह समझना मॉडल के बीच चुनाव करने में मदद करता है।
ट्रांसफॉर्मर — डॉट गुणनफल ध्यान के रूप में
ध्यान एक ज्यामितीय समानता माप है
ट्रांसफॉर्मर आर्किटेक्चर — आधुनिक भाषा मॉडल की नींव — एक ज्यामितीय संक्रिया पर बनाया गया है: डॉट गुणनफल।
अनुक्रम में हर टोकन के लिए, ट्रांसफॉर्मर तीन सदिशों की गणना करता है: प्रश्न (Q), कुंजी (K), और मान (V), प्रत्येक इनपुट एम्बेडिंग को सीखे गए भार मैट्रिक्स से गुणा करके प्राप्त।
दो टोकन के बीच ध्यान स्कोर: स्कोर = Q · K^T / √d
यह एक स्केल किया गया डॉट गुणनफल है — एक ज्यामितीय समानता माप। जब Q और K एक ही दिशा में इशारा करते हैं (उनके बीच छोटा कोण), डॉट गुणनफल बड़ा होता है: यह कुंजी इस प्रश्न के लिए अत्यधिक प्रासंगिक है। जब वे लंबवत हैं, डॉट गुणनफल शून्य है: अप्रासंगिक।
स्कोर softmax से गुजरते हैं एक संभावना वितरण बनाने के लिए: ध्यान भार जो 1 तक जोड़ते हैं। आउटपुट मान सदिशों का भारित योग है, जहाँ भार ज्यामितीय संरेखण द्वारा निर्धारित होते हैं।
एक वाक्य 'बिल्ली चटाई पर बैठी थी क्योंकि यह थकी थी' में, ध्यान गणना करता है: शब्द 'यह' के लिए, कौन से अन्य शब्दों का सबसे अधिक ज्यामितीय संरेखण है? यदि 'यह' के लिए Q सदिश 'बिल्ली' के लिए K सदिश के साथ सबसे अधिक संरेखित है, तो मॉडल 'बिल्ली' में ध्यान देता है — सर्वनाम संदर्भ को ज्यामिति के माध्यम से हल करता है।
बहु-सिर ध्यान — कई ज्यामितीय दृष्टिकोण
कई सिर क्यों?
एकल Q, K, V मैट्रिक्स सेट के साथ स्व-ध्यान ज्यामितीय संरेखण का एक प्रकार की गणना करता है। लेकिन भाषा के संबंधों की कई प्रकार हैं — वाक्यगत, शब्दार्थगत, स्थितिगत, संदर्भ संबंधी।
बहु-सिर ध्यान Q, K, V प्रक्षेपण मैट्रिक्स के कई सेट का उपयोग करता है, प्रत्येक एम्बेडिंग के विभिन्न उप-स्पेस में प्रक्षेप करता है। हर सिर अपने स्वयं के ज्यामितीय उप-स्पेस में संरेखण मापता है।
जब शोधकर्ता ध्यान सिरों को निरीक्षण करते हैं तो देखते हैं:
- सिर 1 पिछले शब्द में ध्यान दे सकता है (स्थितिगत निकटता)
- सिर 2 विषय से क्रिया में ध्यान दे सकता है (वाक्यगत निर्भरता)
- सिर 3 संदर्भ में पहले शब्दार्थ संबंधी शब्दों में ध्यान दे सकता है
- सिर 4 सबसे हाल के संज्ञा में ध्यान दे सकता है (सहनिर्देश)
हर सिर समान डेटा पर एक भिन्न ज्यामितीय लेंस है। प्रक्षेप एम्बेडिंग स्थान को विभिन्न तरीकों से घुमाते और स्केल करते हैं, विभिन्न संबंधों को संरेखण के माध्यम से दृश्यमान बनाते हैं।
यही कारण है कि ट्रांसफॉर्मर एकल ध्यान तंत्र वाले मॉडलों को बेहतर करते हैं। पूर्ण एम्बेडिंग स्पेस में एक डॉट गुणनफल समानता की एक धारणा कैप्चर करता है। विभिन्न उप-स्पेसों में कई डॉट गुणनफल एक साथ कई, पूरक धारणाएँ कैप्चर करते हैं।
बहु-सिर ध्यान
बहु-सिर ध्यान ट्रांसफॉर्मर के मुख्य वास्तुशिल्प नवाचारों में से एक है।
मशीन लर्निंग लागू ज्यामिति है
एकीकृत धागा
देखें कि हमने क्या कवर किया है। मशीन लर्निंग की हर मुख्य अवधारणा की एक ज्यामितीय मूल है:
डेटा = उच्च-आयामी स्थान में बिंदु
विशेषताएँ = उस स्थान के आयाम
समानता = बिंदुओं के बीच दूरी या कोण
वर्गीकरण = वर्गों के बीच ज्यामितीय सीमाएँ खोजना
प्रशिक्षण = ग्रेडिएंट का पालन करके हानि सतह को नेविगेट करना
एम्बेडिंग = सीखे गए निर्देशांक प्रणालियाँ जहाँ ज्यामिति अर्थ को कूटबद्ध करती है
मूल्यांकन = मीट्रिक स्पेस में वक्रों के नीचे क्षेत्र
ध्यान = कोणीय संरेखण को मापने वाले डॉट गुणनफल
यह एक संयोग नहीं है। मशीन लर्निंग ने रैखिक बीजगणित और अवकल ज्यामिति से अपना गणितीय ढाँचा विरासत में लिया — ऐसे क्षेत्र जो मौलिक रूप से स्थान, आकार और परिवर्तन के बारे में हैं।
ज्यामिति को समझना कुछ ऐसा देता है जो एल्गोरिदम को याद करना नहीं कर सकता: अंतर्ज्ञान। जब आपका मॉडल विफल होता है, तो ज्यामितीय दृष्टि सुझाती है कि कहाँ देखें। क्या वर्ग अलग नहीं हैं? सीमा देखें। क्या प्रशिक्षण अटक गया है? हानि परिदृश्य को परीक्षा करें। क्या एम्बेडिंग खराब है? जाँचें कि क्या समान आइटम ज्यामितीय रूप से करीब हैं। क्या ध्यान फैलाव है? उप-स्पेस प्रक्षेपों का निरीक्षण करें।
ज्यामिति 3 आयामों के साथ या 3 अरब के साथ समान है। गणित स्केल करता है। अंतर्ज्ञान स्थानांतरित होता है। यही कारण है कि ज्यामिति मशीन लर्निंग की सार्वभौमिक भाषा है।
ज्यामितीय डीबगिंग
हमने इस पाठ से वेक्टर, दूरियाँ, सीमाएँ, प्रशिक्षण, एम्बेडिंग, मूल्यांकन और ध्यान को कवर किया है — सब कुछ ज्यामिति के लेंस के माध्यम से।