हाइपरप्लेन के रूप में निर्णय सीमाएं
एक बाइनरी वर्गीकारक प्रत्येक इनपुट को दो वर्गों में से एक को असाइन करता है। वर्गीकारक की निर्णय सीमा इनपुट स्पेस को दो क्षेत्रों में विभाजित करती है: प्रत्येक वर्ग के लिए एक। उस सीमा की ज्यामिति यह निर्धारित करती है कि वर्गीकारक कौन से पैटर्न सीख सकता है।
ℝ^n में एक हाइपरप्लेन: सभी बिंदुओं x का सेट जो w·x + b = 0 को संतुष्ट करता है, जहाँ w ℝ^n में एक भार वेक्टर है और b एक अदिश पूर्वाग्रह है। एक हाइपरप्लेन का आयाम n−1 है।
2D में: एक हाइपरप्लेन एक रेखा है। 3D में: एक समतल। n-D में: एक सपाट (n−1)-आयामी उप-स्पेस।
एक परसेप्ट्रॉन w·x + b की गणना करके वर्गीकृत करता है और यदि सकारात्मक है तो वर्ग 1 लौटाता है, यदि नकारात्मक है तो वर्ग 0। इसकी निर्णय सीमा एक हाइपरप्लेन है।
रैखिक पृथक्करणीयता
एक डेटासेट ℝ^n में रैखिक रूप से पृथक्करणीय है यदि एक हाइपरप्लेन मौजूद है जो सभी क्लास-0 बिंदुओं को एक ओर रखता है और सभी क्लास-1 बिंदुओं को दूसरी ओर। यह डेटासेट की विशुद्ध रूप से ज्यामितीय संपत्ति है।
रैखिक पृथक्करणीयता का परीक्षण
2D में AND गेट डेटासेट: क्लास-0 बिंदु (0,0), (1,0), (0,1) पर; क्लास-1 बिंदु (1,1) पर। यह डेटासेट रैखिक रूप से पृथक्करणीय है।
2D में XOR डेटासेट: क्लास-0 बिंदु (0,0) और (1,1) पर; क्लास-1 बिंदु (1,0) और (0,1) पर। ये दोनों वर्ग विरोधी विकर्णों पर स्थित हैं।
उच्च आयामों में उत्थान
XOR 2D में रैखिक रूप से पृथक्करणीय नहीं है। समाधान: डेटा को एक उच्च-आयामी स्पेस में मैप करें जहाँ यह रैखिक रूप से पृथक्करणीय हो जाता है। यह कर्नेल ट्रिक का मूल विचार है।
फीचर मैप: एक फ़ंक्शन φ: ℝ^n → ℝ^m (m > n) जो प्रत्येक इनपुट बिंदु को एक उच्च-आयामी प्रतिनिधित्व में रूपांतरित करता है।
XOR के लिए, एक उपयोगी फीचर मैप: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
यह एक तीसरा आयाम z = x₁ × x₂ जोड़ता है। XOR बिंदु रूपांतरित होते हैं:
- (0,0) → (0, 0, 0), क्लास 0
- (1,0) → (1, 0, 0), क्लास 1
- (0,1) → (0, 1, 0), क्लास 1
- (1,1) → (1, 1, 1), क्लास 0
3D में: क्लास-0 बिंदु (0,0,0) और (1,1,1) पर हैं; क्लास-1 बिंदु (1,0,0) और (0,1,0) पर हैं। अब एक अलग करने वाला समतल खोजें।
3D में अलग करने वाला समतल
फीचर मैप φ(x₁, x₂) = (x₁, x₂, x₁x₂) के बाद, XOR डेटा 3D में रहता है। 3D में एक हाइपरप्लेन का समीकरण w₁x₁ + w₂x₂ + w₃z + b = 0 है।
Cover का प्रमेय: उच्च आयाम क्यों मदद करते हैं
Cover का प्रमेय (1965): एक जटिल वर्गीकरण समस्या को एक उच्च-आयामी स्पेस में डाली गई है, एक कम-आयामी स्पेस में सीखने की तुलना में रैखिक रूप से पृथक्करणीय होने की संभावना अधिक है, बशर्ते स्पेस घनी आबाद न हो।
अनौपचारिक कथन: यदि आप n डेटा बिंदुओं को आयाम d >> n के स्पेस में मैप करते हैं, तो एक यादृच्छिक लेबलिंग रैखिक रूप से पृथक्करणीय होने की संभावना 1 के करीब पहुँचती है।
औपचारिक संस्करण: n बिंदुओं के लिए सामान्य स्थिति में ℝ^d में, रैखिक रूप से पृथक्करणीय dichotomies (वर्ग असाइनमेंट) की संख्या d < n के लिए बिल्कुल 2 × Σ_{k=0}^{d} C(n−1, k) है, और d ≥ n − 1 के लिए 2^n (सभी dichotomies) के बराबर है।
व्यावहारिक निहितार्थ: फीचर मैप φ जो XOR को 3D में उठाता है, इस सामान्य सिद्धांत का एक विशेष मामला है। उच्च आयामों में उत्थान पृथक्करणीयता की संभावना बढ़ाता है। लागत: अधिक पैरामीटर फिट करने के लिए, अतिसज्जित होने का उच्च जोखिम।
पूर्वाग्रह-विचरण ट्रेडऑफ ज्यामिति के रूप में
कम-आयामी निर्णय सीमा (कुछ पैरामीटर): उच्च पूर्वाग्रह (जटिल पैटर्न नहीं पकड़ सकते), कम विचरण (नमूने में स्थिर)। उच्च-आयामी सीमा (कई पैरामीटर): कम पूर्वाग्रह, उच्च विचरण (प्रशिक्षण डेटा में शोर से अतिसज्जित हो सकता है)।
VC आयाम: एक वर्गीकारक कितना अभिव्यक्तिशील है?
Vapnik-Chervonenkis (VC) आयाम एक परिकल्पना वर्ग H की जटिलता को मापता है: बिंदुओं की सबसे बड़ी संख्या जो H सभी 2^n संभावित लेबलिंगों में तोड़ सकता है (सही तरीके से वर्गीकृत करता है)।
ℝ^d में परसेप्ट्रॉन: VC आयाम = d + 1। एक d-आयामी हाइपरप्लेन d + 1 बिंदुओं (सामान्य स्थिति में) को तोड़ सकता है लेकिन d + 2 नहीं।
VC आयाम नमूना जटिलता निर्धारित करता है: सामान्यीकरण त्रुटि ε के साथ एक परिकल्पना सीखने के लिए संभावना 1 − δ के साथ, आपको लगभग n ≥ (d × log(1/ε) + log(1/δ)) / ε नमूने चाहिए, जहाँ d VC आयाम है।
निर्णय सीमाएं & मशीन क्षमता सीमाएं
निर्णय सीमाओं की ज्यामिति सीधे Hamming की मशीन तर्क सीमाओं से जुड़ी है।
एक एकल-परत परसेप्ट्रॉन (हाइपरप्लेन वर्गीकारक) XOR को हल नहीं कर सकता। यह 1969 में Minsky & Papert की प्रारंभिक परसेप्ट्रॉन की आलोचना थी। ज्यामितीय तर्क: XOR रैखिक रूप से पृथक्करणीय नहीं है। मशीन इसे हल नहीं कर सकती, कंप्यूटिंग शक्ति की कमी के कारण नहीं, बल्कि परिकल्पना वर्ग और समस्या के बीच एक मौलिक ज्यामितीय असंगतता के कारण।
समाधान: बहु-परत नेटवर्क गैर-रैखिक सीमाओं का प्रतिनिधित्व कर सकते हैं। छिपी परतें फीचर मैप φ को कार्यान्वित करती हैं — डेटा को उच्च आयामों में उठाती हैं जहाँ रैखिक पृथक्करण संभव हो जाता है। प्रत्येक छिपा हुआ न्यूरॉन एक हाइपरप्लेन की गणना करता है; कई हाइपरप्लेन का संयोजन वक्रों को अनुमानित करता है।
यह इतिहास Hamming की अवलोकन से मैप करता है: मशीन तर्क की हर सीमा का एक ज्यामितीय संरचना है। सवाल यह नहीं है कि मशीनें 'सोच सकती हैं' बल्कि ज्यामितीय बाधाओं को पहचानना और उन्हें काम करने के तरीके खोजना है।