un — मशीन तर्क की ज्यामिति: III

un

guest

1 / ?

back to lessons

हाइपरप्लेन के रूप में निर्णय सीमाएं

एक बाइनरी वर्गीकारक प्रत्येक इनपुट को दो वर्गों में से एक को असाइन करता है। वर्गीकारक की निर्णय सीमा इनपुट स्पेस को दो क्षेत्रों में विभाजित करती है: प्रत्येक वर्ग के लिए एक। उस सीमा की ज्यामिति यह निर्धारित करती है कि वर्गीकारक कौन से पैटर्न सीख सकता है।

ℝ^n में एक हाइपरप्लेन: सभी बिंदुओं x का सेट जो w·x + b = 0 को संतुष्ट करता है, जहाँ w ℝ^n में एक भार वेक्टर है और b एक अदिश पूर्वाग्रह है। एक हाइपरप्लेन का आयाम n−1 है।

2D में: एक हाइपरप्लेन एक रेखा है। 3D में: एक समतल। n-D में: एक सपाट (n−1)-आयामी उप-स्पेस।

एक परसेप्ट्रॉन w·x + b की गणना करके वर्गीकृत करता है और यदि सकारात्मक है तो वर्ग 1 लौटाता है, यदि नकारात्मक है तो वर्ग 0। इसकी निर्णय सीमा एक हाइपरप्लेन है।

रैखिक पृथक्करणीयता

एक डेटासेट ℝ^n में रैखिक रूप से पृथक्करणीय है यदि एक हाइपरप्लेन मौजूद है जो सभी क्लास-0 बिंदुओं को एक ओर रखता है और सभी क्लास-1 बिंदुओं को दूसरी ओर। यह डेटासेट की विशुद्ध रूप से ज्यामितीय संपत्ति है।

निर्णय सीमा ज्यामिति: रैखिक पृथक्करणीयता & XOR

रैखिक पृथक्करणीयता का परीक्षण

2D में AND गेट डेटासेट: क्लास-0 बिंदु (0,0), (1,0), (0,1) पर; क्लास-1 बिंदु (1,1) पर। यह डेटासेट रैखिक रूप से पृथक्करणीय है।

2D में XOR डेटासेट: क्लास-0 बिंदु (0,0) और (1,1) पर; क्लास-1 बिंदु (1,0) और (0,1) पर। ये दोनों वर्ग विरोधी विकर्णों पर स्थित हैं।

सत्यापित करें कि XOR डेटासेट 2D में रैखिक रूप से पृथक्करणीय नहीं है। एक ज्यामितीय तर्क का उपयोग करें: समझाएं कि 2D विमान में कोई भी रेखा दोनों वर्गों को अलग क्यों नहीं कर सकती है। आपके तर्क को चारों बिंदुओं की स्थिति और सीधी रेखा के गुण का संदर्भ देना चाहिए जो पृथक्करण को असंभव बनाता है।

उच्च आयामों में उत्थान

XOR 2D में रैखिक रूप से पृथक्करणीय नहीं है। समाधान: डेटा को एक उच्च-आयामी स्पेस में मैप करें जहाँ यह रैखिक रूप से पृथक्करणीय हो जाता है। यह कर्नेल ट्रिक का मूल विचार है।

फीचर मैप: एक फ़ंक्शन φ: ℝ^n → ℝ^m (m > n) जो प्रत्येक इनपुट बिंदु को एक उच्च-आयामी प्रतिनिधित्व में रूपांतरित करता है।

XOR के लिए, एक उपयोगी फीचर मैप: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

यह एक तीसरा आयाम z = x₁ × x₂ जोड़ता है। XOR बिंदु रूपांतरित होते हैं:

- (0,0) → (0, 0, 0), क्लास 0

- (1,0) → (1, 0, 0), क्लास 1

- (0,1) → (0, 1, 0), क्लास 1

- (1,1) → (1, 1, 1), क्लास 0

3D में: क्लास-0 बिंदु (0,0,0) और (1,1,1) पर हैं; क्लास-1 बिंदु (1,0,0) और (0,1,0) पर हैं। अब एक अलग करने वाला समतल खोजें।

3D में अलग करने वाला समतल

फीचर मैप φ(x₁, x₂) = (x₁, x₂, x₁x₂) के बाद, XOR डेटा 3D में रहता है। 3D में एक हाइपरप्लेन का समीकरण w₁x₁ + w₂x₂ + w₃z + b = 0 है।

3D में अलग करने वाले हाइपरप्लेन w·x + b = 0 को खोजें जो XOR वर्गों को सही तरीके से अलग करता है। सभी चार रूपांतरित बिंदुओं को प्रतिस्थापित करके अपने हाइपरप्लेन को सत्यापित करें। प्रत्येक क्लास-0 बिंदु को w·x + b < 0 (या > 0) देना चाहिए और प्रत्येक क्लास-1 बिंदु विपरीत चिन्ह देना चाहिए।

Cover का प्रमेय: उच्च आयाम क्यों मदद करते हैं

Cover का प्रमेय (1965): एक जटिल वर्गीकरण समस्या को एक उच्च-आयामी स्पेस में डाली गई है, एक कम-आयामी स्पेस में सीखने की तुलना में रैखिक रूप से पृथक्करणीय होने की संभावना अधिक है, बशर्ते स्पेस घनी आबाद न हो।

अनौपचारिक कथन: यदि आप n डेटा बिंदुओं को आयाम d >> n के स्पेस में मैप करते हैं, तो एक यादृच्छिक लेबलिंग रैखिक रूप से पृथक्करणीय होने की संभावना 1 के करीब पहुँचती है।

औपचारिक संस्करण: n बिंदुओं के लिए सामान्य स्थिति में ℝ^d में, रैखिक रूप से पृथक्करणीय dichotomies (वर्ग असाइनमेंट) की संख्या d < n के लिए बिल्कुल 2 × Σ_{k=0}^{d} C(n−1, k) है, और d ≥ n − 1 के लिए 2^n (सभी dichotomies) के बराबर है।

व्यावहारिक निहितार्थ: फीचर मैप φ जो XOR को 3D में उठाता है, इस सामान्य सिद्धांत का एक विशेष मामला है। उच्च आयामों में उत्थान पृथक्करणीयता की संभावना बढ़ाता है। लागत: अधिक पैरामीटर फिट करने के लिए, अतिसज्जित होने का उच्च जोखिम।

पूर्वाग्रह-विचरण ट्रेडऑफ ज्यामिति के रूप में

कम-आयामी निर्णय सीमा (कुछ पैरामीटर): उच्च पूर्वाग्रह (जटिल पैटर्न नहीं पकड़ सकते), कम विचरण (नमूने में स्थिर)। उच्च-आयामी सीमा (कई पैरामीटर): कम पूर्वाग्रह, उच्च विचरण (प्रशिक्षण डेटा में शोर से अतिसज्जित हो सकता है)।

VC आयाम: एक वर्गीकारक कितना अभिव्यक्तिशील है?

Vapnik-Chervonenkis (VC) आयाम एक परिकल्पना वर्ग H की जटिलता को मापता है: बिंदुओं की सबसे बड़ी संख्या जो H सभी 2^n संभावित लेबलिंगों में तोड़ सकता है (सही तरीके से वर्गीकृत करता है)।

ℝ^d में परसेप्ट्रॉन: VC आयाम = d + 1। एक d-आयामी हाइपरप्लेन d + 1 बिंदुओं (सामान्य स्थिति में) को तोड़ सकता है लेकिन d + 2 नहीं।

VC आयाम नमूना जटिलता निर्धारित करता है: सामान्यीकरण त्रुटि ε के साथ एक परिकल्पना सीखने के लिए संभावना 1 − δ के साथ, आपको लगभग n ≥ (d × log(1/ε) + log(1/δ)) / ε नमूने चाहिए, जहाँ d VC आयाम है।

ℝ^3 में एक परसेप्ट्रॉन का VC आयाम 4 है। VC नमूना जटिलता बाध्यता के अनुसार, सामान्यीकरण त्रुटि ε = 0.05 को आत्मविश्वास 1 − δ = 0.95 के साथ प्राप्त करने के लिए कितने प्रशिक्षण नमूने आवश्यक हैं? दिए गए मानों के साथ सरलीकृत बाध्यता n ≥ (d × log(1/ε) + log(1/δ)) / ε का उपयोग करें। सभी गणनाएं दिखाएं।

निर्णय सीमाएं & मशीन क्षमता सीमाएं

निर्णय सीमाओं की ज्यामिति सीधे Hamming की मशीन तर्क सीमाओं से जुड़ी है।

एक एकल-परत परसेप्ट्रॉन (हाइपरप्लेन वर्गीकारक) XOR को हल नहीं कर सकता। यह 1969 में Minsky & Papert की प्रारंभिक परसेप्ट्रॉन की आलोचना थी। ज्यामितीय तर्क: XOR रैखिक रूप से पृथक्करणीय नहीं है। मशीन इसे हल नहीं कर सकती, कंप्यूटिंग शक्ति की कमी के कारण नहीं, बल्कि परिकल्पना वर्ग और समस्या के बीच एक मौलिक ज्यामितीय असंगतता के कारण।

समाधान: बहु-परत नेटवर्क गैर-रैखिक सीमाओं का प्रतिनिधित्व कर सकते हैं। छिपी परतें फीचर मैप φ को कार्यान्वित करती हैं — डेटा को उच्च आयामों में उठाती हैं जहाँ रैखिक पृथक्करण संभव हो जाता है। प्रत्येक छिपा हुआ न्यूरॉन एक हाइपरप्लेन की गणना करता है; कई हाइपरप्लेन का संयोजन वक्रों को अनुमानित करता है।

यह इतिहास Hamming की अवलोकन से मैप करता है: मशीन तर्क की हर सीमा का एक ज्यामितीय संरचना है। सवाल यह नहीं है कि मशीनें 'सोच सकती हैं' बल्कि ज्यामितीय बाधाओं को पहचानना और उन्हें काम करने के तरीके खोजना है।

Minsky & Papert की 1969 की परसेप्ट्रॉन की आलोचना ने XOR गैर-पृथक्करणीयता तर्क का उपयोग किया। उनकी पुस्तक, 'Perceptrons,' लगभग एक दशक के लिए तंत्रिका नेटवर्क अनुसंधान को मार गई। लेकिन बहु-परत नेटवर्क XOR समस्या को हल करते हैं। यह इतिहास एक मशीन तर्क प्रणाली की प्रदर्शित सीमा की व्याख्या करने के सही तरीके के बारे में क्या सुझाव देता है? विशेष रूप से: क्या एक प्रदर्शित ज्यामितीय सीमा को स्थायी के रूप में समझा जाना चाहिए या वर्तमान परिकल्पना वर्ग पर सशर्त? एक सिद्धांत उत्तर दें।