un — PAC लर्निंग की ज्यामिति

un

guest

1 / ?

back to lessons

द्वि-अक्षीय तल के रूप में PAC

दो अक्ष, एक नमूना-गणना सतह

ε को क्षैतिज अक्ष पर प्लॉट करें (त्रुटि सहनशीलता, सीमा 0 से 1)। δ को ऊर्ध्वाधर अक्ष पर प्लॉट करें (विफलता की संभावना, सीमा 0 से 1)। इस इकाई वर्ग का प्रत्येक बिंदु एक (ε, δ) मांग जोड़ी से मेल खाता है।

PAC ε δ Budget Plane

प्रत्येक बिंदु के ऊपर एक नमूना-गणना मान m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)) बैठता है। साथ में, वे m मान हमारे वर्ग के ऊपर एक घुमावदार सतह बनाते हैं। सख्त मांगें (छोटा ε, छोटा δ) हमारी सतह को ऊपर खींचती हैं; ढीली मांगें इसे चपटा करती हैं।

आइसो-नमूना समोच्च रेखाएँ

हमारी सतह को आइसो-m समोच्चों के रूप में हमारे तल पर वापस प्रोजेक्ट करें। एक ही समोच्च पर प्रत्येक (ε, δ) जोड़ी को हमारा समान नमूना बजट चाहिए। एक समोच्च के साथ चलें ताकि निश्चित लागत पर त्रुटि सहनशीलता को विश्वास के लिए व्यापार करें।

एक अक्ष को आधा करना

हमारे क्षैतिज पर ε को आधा करना m को 2 गुना ऊपर ले जाता है (1/ε में रैखिक)। हमारे ऊर्ध्वाधर पर δ को आधा करना m को ln(2) ≈ 0.69 ऊपर ले जाता है (1/δ में लघुगणकीय)। ज्यामिति हमें बताती है: त्रुटि सहनशीलता विश्वास की तुलना में अधिक तीव्र लागत वहन करती है।

बजट सतह को पढ़ना

हम परिकल्पना वर्ग |H| = 10⁶ के लिए बिंदु (ε = 0.05, δ = 0.05) पर बैठते हैं। नमूना आवश्यकता m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336।

(a) (ε = 0.025, δ = 0.05) पर नई नमूना आवश्यकता m₁ की गणना करें — आधी त्रुटि, समान विश्वास। (b) (ε = 0.05, δ = 0.025) पर m₂ की गणना करें — समान त्रुटि, आधी विफलता-संभावना। (c) कौन सा अक्ष अधिक तीव्र नमूना लागत वहन करता है, और किस अनुपात से?

बिंदु बादलों पर डाइकोटोमी

शैटरिंग कैसी दिखती है

हमारे तल में n बिंदु रखें। एक परिकल्पना वर्ग चुनें (रैखिक वर्गीकारक = सीधी रेखाएँ)। गिनें कि हमारा वर्ग उन n बिंदुओं को कितने अलग-अलग तरीकों से लेबल कर सकता है (एक रेखा के प्रत्येक तरफ +/−)। इस गणना को Π_H(n) कहें।

VC Shattering Three Points

यदि Π_H(n) = 2ⁿ, तो हमारा वर्ग उस बिंदु समुच्चय को शैटर करता है — वह हर संभव लेबलिंग उत्पन्न कर सकता है। यदि Π_H(n) < 2ⁿ, तो कुछ लेबलिंग नहीं हो सकतीं।

सामान्य स्थिति में तीन बिंदु

ℝ² में रैखिक वर्गीकारक किसी भी 3 गैर-संरेख बिंदुओं को शैटर करते हैं। 2³ = 8 लेबलिंग; सभी 8 किसी न किसी रेखा द्वारा प्राप्त होती हैं। कोई भी 3 बिंदु चुनें; प्रत्येक ±/± लेबलिंग के लिए, एक रेखा खींचें जो धनात्मक को ऋणात्मक से अलग करती है।

चार बिंदु शैटर होने से इनकार करते हैं

एक वर्ग के कोनों पर 4 बिंदु रखें। विकर्ण जोड़ी को धनात्मक और प्रति-विकर्ण जोड़ी को ऋणात्मक के रूप में लेबल करने का प्रयास करें (XOR लेबलिंग)। कोई भी सीधी रेखा उन्हें अलग नहीं करती। तो Π_H(4) ≤ 14 < 16 = 2⁴।

अधिकतम शैटर आकार के रूप में VC आयाम

VC(रैखिक ℝ²) = 3। हम 3 बिंदु शैटर कर सकते हैं; हम 4 शैटर नहीं कर सकते। VC हमारी परिकल्पना वर्ग की अधिकतम डाइकोटोमी क्षमता गिनती है।

ज्यामितीय अंतर्ज्ञान

अधिक VC = हमारा वर्ग अधिक विस्तृत निर्णय सीमाएँ खींचता है। रैखिक (d आयामों में VC = d+1) हाइपरप्लेन खींचता है। बहुपद वक्र खींचते हैं। तंत्रिका नेटवर्क अत्यधिक मुड़े हुए मैनिफोल्ड खींचते हैं। अधिक मोड़ने की क्षमता = अधिक डाइकोटोमी = अधिक VC = अधिक नमूना आवश्यकता।

डाइकोटोमी की गिनती

ℝ² में रैखिक वर्गीकारक (रेखाएँ) पर विचार करें। हमारे पास सामान्य स्थिति में रखे 5 बिंदु हैं (कोई 3 संरेख नहीं, कोई अनावश्यक नहीं)।

(a) 2⁵ = सभी संभव ±/± लेबलिंग की संख्या की गणना करें। (b) Sauer-Shelah प्रमेय Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) को सीमित करता है, जहाँ d = VC(H)। इसे d = 3, n = 5 के साथ लागू करें: C(5,0) + C(5,1) + C(5,2) + C(5,3) की गणना करें। (c) बताएं कि रेखाएँ पूर्ण शैटरिंग से किस कारक से कम पड़ती हैं।

परिकल्पना मैनिफोल्ड पर संभावना द्रव्यमान

PAC-Bayes की कल्पना

हमारे परिकल्पना स्थान को एक उच्च-आयामी मैनिफोल्ड के रूप में देखें। इस मैनिफोल्ड पर प्रत्येक बिंदु एक तंत्रिका नेटवर्क के एक भार विन्यास से मेल खाता है। पूर्व P हमारे मैनिफोल्ड पर एक संभावना वितरण निर्दिष्ट करता है (अक्सर आरंभीकरण पर केंद्रित गाऊसी)। पश्च Q उन क्षेत्रों में संभावना द्रव्यमान को केंद्रित करता है जहाँ प्रशिक्षण डेटा ने हमारे भार को धकेला।

PAC Bayes Posterior over Hypothesis Space

ज्यामितीय दूरी के रूप में KL डाइवर्जेंस

KL(Q‖P) मापता है कि Q P से कितना दूर चला गया है। ज्यामितीय पठन: हमारा पश्च बादल पूर्व बादल से कितना चला गया है, यह इस बात से भारित होकर कि प्रत्येक पश्च क्षेत्र हमारे पूर्व के अंतर्गत कितना असंभाव्य था।

छोटा KL = Q P के साथ भारी रूप से अतिव्यापी होता है। पश्च मुश्किल से चला। सामान्यीकरण अंतर छोटा रहता है।

बड़ा KL = Q उन क्षेत्रों में केंद्रित हुआ जहाँ P ने कम द्रव्यमान निर्दिष्ट किया था। पश्च बहुत चला। सामान्यीकरण अंतर बढ़ता है।

यह ज्यामिति क्यों मायने रखती है

SGD को हमारे परिकल्पना मैनिफोल्ड में एक खोज प्रक्षेपवक्र के रूप में देखें। प्रक्षेपवक्र निम्न प्रशिक्षण हानि के एक बेसिन में समाप्त होता है। PAC-Bayes पूछता है: यह बेसिन कितना चौड़ा है?

चौड़ा बेसिन = कई पड़ोसी भार विन्यास भी निम्न प्रशिक्षण हानि प्राप्त करते हैं। पश्च Q एक विस्तृत क्षेत्र पर फैल सकता है और फिर भी निम्न जोखिम रख सकता है। KL(Q‖P) सीमित रहता है। सामान्यीकरण अंतर छोटा।

संकीर्ण बेसिन = केवल एक पतला भार समुच्चय निम्न हानि प्राप्त करता है। पश्च को तीव्रता से केंद्रित होना चाहिए। KL बढ़ता है। सामान्यीकरण अंतर चौड़ा होता है।

यह सीधे फ्लैट-बनाम-शार्प मिनिमा चर्चा से जुड़ता है (Hochreiter & Schmidhuber 1997, Keskar et al 2017)। फ्लैट मिनिमा बेहतर सामान्यीकरण करते हैं क्योंकि वे छोटे KL के साथ चौड़े पश्च का समर्थन करते हैं।

एक बेसिन की चौड़ाई पढ़ना

दो प्रशिक्षित मॉडल समान प्रशिक्षण हानि तक पहुँचते हैं लेकिन विभिन्न बेसिन में रहते हैं:

- मॉडल A: फ्लैट बेसिन, पश्च KL(Q_A‖P) = 50 nats के साथ क्षेत्र पर फैलता है।

- मॉडल B: शार्प बेसिन, पश्च KL(Q_B‖P) = 500 nats के साथ केंद्रित होता है।

दोनों n = 10,000 उदाहरणों पर अनुभवजन्य जोखिम 0.05, δ = 0.05 के साथ प्रशिक्षित।

प्रत्येक मॉडल के लिए PAC-Bayes सामान्यीकरण अंतर √[(KL + ln(2√n/δ)) / 2n] की गणना करें। फिर बताएं कि कौन बेहतर सामान्यीकरण करता है और ज्यामितीय कारण दें।

एक वक्र जो वहाँ गिरता है जहाँ सिद्धांत ने उठने की भविष्यवाणी की थी

शास्त्रीय U-वक्र

मॉडल क्षमता को क्षैतिज अक्ष पर प्लॉट करें। परीक्षण जोखिम को ऊर्ध्वाधर अक्ष पर प्लॉट करें। शास्त्रीय बायस-वैरिएन्स सिद्धांत भविष्यवाणी करता है:

- कम क्षमता: उच्च बायस, उच्च परीक्षण जोखिम (अंडरफिट)

- मध्यम क्षमता: कम बायस + कम वैरिएन्स, कम परीक्षण जोखिम (मधुर बिंदु)

- उच्च क्षमता: कम बायस, उच्च वैरिएन्स, उच्च परीक्षण जोखिम (ओवरफिट)

परिणाम: U-आकार का वक्र। हमारे तल पर क्षमता चुनें।

Double Descent Curve

Belkin et al (2019) ने क्या देखा

इंटरपोलेशन सीमा के पार (वह क्षमता जहाँ मॉडल शून्य त्रुटि के साथ प्रशिक्षण डेटा को बिल्कुल फिट करता है), परीक्षण जोखिम फिर से गिरता है। वक्र पढ़ता है: अवरोहण → इंटरपोलेशन पर शिखर → दूसरा अवरोहण। दो अवरोहण, एक वक्र।

दूसरे अवरोहण का ज्यामितीय पठन

इंटरपोलेशन सीमा पर, मॉडल के पास प्रशिक्षण डेटा को फिट करने के लिए बस पर्याप्त क्षमता होती है — केवल एक (या कुछ) इंटरपोलेटिंग समाधान मौजूद हैं और वे दांतेदार होते हैं। सामान्यीकरण कष्ट सहता है क्योंकि चुना गया समाधान बाध्य होता है।

इंटरपोलेशन सीमा के पार, कई इंटरपोलेटिंग समाधान मौजूद हैं। SGD को एक चिकना (न्यूनतम-नॉर्म, कम-वक्रता) चुनने की स्वतंत्रता है। ज्यामितीय चित्र: समाधान मैनिफोल्ड चौड़ा और चपटा हो जाता है। SGD का अंतर्निहित नियमितीकरण इस चपटे मैनिफोल्ड से सौम्य समाधान चुनता है। परीक्षण जोखिम गिरता है।

शास्त्रीय सिद्धांत यह क्यों चूकता है

VC आयाम समाधान-समुच्चय क्षमता गिनता है लेकिन यह अनदेखा करता है कि कौन सा समाधान चुना जाता है। शास्त्रीय सीमा सबसे खराब-स्थिति अनुभवजन्य जोखिम न्यूनीकरणकर्ता मानती है। वास्तविकता: SGD विश्वसनीय रूप से हमारा सबसे चपटा, सबसे चिकना इंटरपोलेटिंग समाधान चुनता है। एक बार जब हम सभी समाधानों के बजाय हल-कर्ता-चयनित समाधान गिनते हैं, दूसरा अवरोहण समझ में आता है।

ज्यामितीय निष्कर्ष

क्षमता बेसिन ज्यामिति से कम मायने रखती है। चौड़े फ्लैट बेसिन (पोस्ट-इंटरपोलेशन) संकीर्ण शार्प वालों (इंटरपोलेशन पर) से बेहतर सामान्यीकरण करते हैं। आधुनिक सिद्धांत पैरामीटर गणना से नहीं, बल्कि बेसिन चौड़ाई से सामान्यीकरण को सीमित करने का प्रयास करता है।

दो अवरोहणों का स्थान

एक डबल डिसेंट वक्र पर, तीन क्षेत्र मायने रखते हैं: (1) अंडर-पैरामीटराइज्ड शासन, (2) इंटरपोलेशन शिखर, (3) ओवर-पैरामीटराइज्ड शासन।

ज्यामितीय रूप से वर्णन करें कि (a) समाधान मैनिफोल्ड की चौड़ाई, (b) चयनित न्यूनतम पर बेसिन वक्रता, और (c) तीनों क्षेत्रों में से प्रत्येक पर अंतर्निहित नियमितीकरण की भूमिका के साथ क्या होता है। बताएं कि आधुनिक प्रशिक्षण (जैसे GPT-वर्ग मॉडल) किस क्षेत्र में संचालित होता है और शास्त्रीय PAC उसकी सफलता की भविष्यवाणी करने में क्यों विफल रहता है।

पैरामीटर-टोकन स्थान में पावर-लॉ सतह

एक 3D सतह

पैरामीटर N को एक क्षैतिज अक्ष पर प्लॉट करें। टोकन D को दूसरे क्षैतिज अक्ष पर प्लॉट करें। हानि L को ऊर्ध्वाधर पर प्लॉट करें। अनुभवजन्य हानि इस (N, D) तल पर एक पावर-लॉ सतह उकेरती है:

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

Compute Optimal Training Surface

जैसे-जैसे N या D बढ़ता है, सतह नीचे की ओर ढलती है। ढलान लॉग-रैखिक पावर नियमों का अनुसरण करते हैं (लॉग-लॉग प्लॉट में सीधी रेखाएँ)। एसिम्प्टोट L∞ धनात्मक रहता है — अप्रत्यावर्तनीय हानि जिसे हमारा मॉडल पार नहीं कर सकता।

कंप्यूट-अनुकूल कटक

कुल कंप्यूट बजट C ∝ N × D (पैरामीटर × टोकन, मोटे तौर पर) तय करें। हमारी सतह को इस बाधा के साथ काटें। कटी हुई रेखा 3D सतह से होकर 2D वक्र काटती है। इस वक्र का तल = कंप्यूट-अनुकूल बिंदु।

Chinchilla (Hoffmann et al 2022) ने इस तल की विश्लेषणात्मक रूप से गणना की: D_opt ≈ 20 × N। कंप्यूट बजट के साथ वक्र = एक कटक। कटक के साथ चलना: समान कंप्यूट, घटती हानि। कटक से बाहर चलना (टोकन से 20× अधिक पैरामीटर, या कम): बर्बाद कंप्यूट।

GPT-3 बनाम Chinchilla का ज्यामितीय पठन

GPT-3: 175B पैरामीटर, 300B टोकन। Chinchilla-अनुकूल 175B × 20 = 3500B टोकन चाहेगा। GPT-3 हमारे पैरामीटर-भारी दिशा में कंप्यूट-अनुकूल कटक से बहुत दूर बैठता है। Chinchilla स्वयं: 1400B टोकन पर प्रशिक्षित 70B पैरामीटर। 1400 / 70 = 20 — ठीक कटक पर। Chinchilla ज्यामितीय अनुकूलतम पर बैठकर GPT-3 के पैरामीटर गणना के आधे से कम के साथ उसे हराया।

ऊर्ध्वाधर तल के रूप में डेटा वॉल

सार्वजनिक वेब ~10¹³ उपयोगी टोकन। यह हमारे पैरामीटर-टोकन तल पर D = 10¹³ पर एक ऊर्ध्वाधर दीवार के रूप में प्लॉट होता है। इस दीवार से परे, कंप्यूट-अनुकूल प्रशिक्षण के लिए N ≤ D / 20 = 5 × 10¹¹ पैरामीटर चाहिए। N = 5 × 10¹¹ से परे की दीवारें या तो अंडर-प्रशिक्षित (कटक से बाहर) चलती हैं या दीवार को बाहर धकेलने के लिए सिंथेटिक / मल्टीमॉडल / RL डेटा की आवश्यकता होती है।

कंप्यूट-अनुकूल कटक पर चलना

हम GPT-3 निर्देशांक पर बैठते हैं: N = 175B पैरामीटर, D = 300B टोकन। कंप्यूट प्रॉक्सी C = N × D = 5.25 × 10²² पैरामीटर-टोकन।

(a) D* = 20 × N* को N* × D* = 5.25 × 10²² के साथ हल करके हमारे समान कंप्यूट बजट के लिए Chinchilla-अनुकूल (N*, D*) की गणना करें। (b) बताएं कि N* GPT-3 के 175B से किस कारक से भिन्न है। (c) ज्यामितीय रूप से वर्णन करें कि पैरामीटर-टोकन सतह पर 'GPT-3 के बिंदु से (N*, D*) तक स्थिर-कंप्यूट वक्र पर चलना' कैसा दिखता है।

एक सुई में सिकुड़ता बीटा पश्च

[0, 1] पर एक संभावना घनत्व

Beta(α, β) इकाई अंतराल [0, 1] पर एक संभावना घनत्व है। चर: ε = सच्ची त्रुटि दर। आकार: α उच्च-ε पक्ष पर द्रव्यमान को नियंत्रित करता है; β निम्न-ε पक्ष पर द्रव्यमान को नियंत्रित करता है।

Beta Posterior Tightening

Beta(1, 1): एकसमान — कोई जानकारी नहीं, [0, 1] पर सपाट घनत्व।

Beta(α, β) जब α + β बड़ा है: α / (α + β) पर केंद्रित शिखर।

बीटा शिखर की चौड़ाई 1/√(α+β) के रूप में सिकुड़ती है। हमारे पूर्व में 100 अवलोकन जोड़ने से शिखर √100 = 10 गुना सख्त हो जाता है। 10000 अवलोकन जोड़ने से √10000 = 100 गुना सख्त हो जाता है।

एक ऑडिट रन का ज्यामितीय पठन

शुरू: Beta(1, 1) = [0, 1] पर सपाट आयत। ε के बारे में अधिकतम अनिश्चितता।

8 खंडनों के साथ 200 क्वेरीज़ के बाद: Beta(9, 193)। माध्य = 9/202 ≈ 0.045। घनत्व अब विशिष्ट चौड़ाई σ ≈ 0.014 के साथ 0.045 के पास केंद्रित एक तीव्र कूबड़।

80 खंडनों के साथ 2000 क्वेरीज़ के बाद: Beta(81, 1921)। माध्य अभी भी ≈ 0.045, लेकिन चौड़ाई σ ≈ 0.0046। कूबड़ तीन गुना तेज।

8000 खंडनों के साथ 200,000 क्वेरीज़ के बाद: Beta(8001, 192,001)। माध्य ≈ 0.040, चौड़ाई σ ≈ 0.0004। कूबड़ एक सुई बन जाता है।

एक बिंदु द्रव्यमान की ओर ज्यामितीय अभिसरण

जैसे ही n → ∞, बीटा पश्च सच्चे ε पर एक डायरैक डेल्टा में ढह जाता है। ज्यामिति: आयत → चौड़ा कूबड़ → संकीर्ण कूबड़ → सुई → बिंदु। प्रत्येक क्वेरी हमारे वितरण को 1/√n से सख्त करती है।

यह सैद्धांतिक PAC सीमाओं को क्यों हराता है

सैद्धांतिक PAC सीमाएँ परिकल्पना वर्ग आकार के आधार पर एक स्थिर ε अनुमान देती हैं। बीटा पश्च एक गतिशील ε अनुमान देता है जो प्रत्येक अवलोकन के साथ सख्त होता है, आपके वास्तविक-दुनिया वितरण के विरुद्ध कैलिब्रेटेड। सैद्धांतिक सीमा = सबसे खराब-स्थिति मान्यताओं के तहत एक गारंटी। अनुभवजन्य ऑडिट = वास्तविक वास्तविकता का माप।

विश्वसनीय अंतराल को आधा करने के लिए कितनी क्वेरीज़?

हम वर्तमान में 200 क्वेरीज़ के बाद Beta(9, 193) पर बैठते हैं: माध्य ε ≈ 0.045, σ ≈ 0.014। हम विश्वसनीय-अंतराल चौड़ाई को σ ≈ 0.007 तक आधा करना चाहते हैं।

(a) याद रखें σ 1/√(α+β) के रूप में स्केल होता है। σ को आधा करने के लिए, (α + β) को किस कारक से बढ़ना चाहिए? (b) वर्तमान में α + β = 202। लक्ष्य α + β की गणना करें। (c) आवश्यक अतिरिक्त क्वेरीज़ की गणना करें (स्थिर ~4% खंडन दर मानते हुए)। (d) ज्यामितीय रूप से वर्णन करें कि σ को आधा करना बीटा घनत्व के आकार पर क्या करता है।