द्वि-अक्षीय तल के रूप में PAC
दो अक्ष, एक नमूना-गणना सतह
ε को क्षैतिज अक्ष पर प्लॉट करें (त्रुटि सहनशीलता, सीमा 0 से 1)। δ को ऊर्ध्वाधर अक्ष पर प्लॉट करें (विफलता की संभावना, सीमा 0 से 1)। इस इकाई वर्ग का प्रत्येक बिंदु एक (ε, δ) मांग जोड़ी से मेल खाता है।
प्रत्येक बिंदु के ऊपर एक नमूना-गणना मान m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)) बैठता है। साथ में, वे m मान हमारे वर्ग के ऊपर एक घुमावदार सतह बनाते हैं। सख्त मांगें (छोटा ε, छोटा δ) हमारी सतह को ऊपर खींचती हैं; ढीली मांगें इसे चपटा करती हैं।
आइसो-नमूना समोच्च रेखाएँ
हमारी सतह को आइसो-m समोच्चों के रूप में हमारे तल पर वापस प्रोजेक्ट करें। एक ही समोच्च पर प्रत्येक (ε, δ) जोड़ी को हमारा समान नमूना बजट चाहिए। एक समोच्च के साथ चलें ताकि निश्चित लागत पर त्रुटि सहनशीलता को विश्वास के लिए व्यापार करें।
एक अक्ष को आधा करना
हमारे क्षैतिज पर ε को आधा करना m को 2 गुना ऊपर ले जाता है (1/ε में रैखिक)। हमारे ऊर्ध्वाधर पर δ को आधा करना m को ln(2) ≈ 0.69 ऊपर ले जाता है (1/δ में लघुगणकीय)। ज्यामिति हमें बताती है: त्रुटि सहनशीलता विश्वास की तुलना में अधिक तीव्र लागत वहन करती है।
बजट सतह को पढ़ना
हम परिकल्पना वर्ग |H| = 10⁶ के लिए बिंदु (ε = 0.05, δ = 0.05) पर बैठते हैं। नमूना आवश्यकता m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336।
बिंदु बादलों पर डाइकोटोमी
शैटरिंग कैसी दिखती है
हमारे तल में n बिंदु रखें। एक परिकल्पना वर्ग चुनें (रैखिक वर्गीकारक = सीधी रेखाएँ)। गिनें कि हमारा वर्ग उन n बिंदुओं को कितने अलग-अलग तरीकों से लेबल कर सकता है (एक रेखा के प्रत्येक तरफ +/−)। इस गणना को Π_H(n) कहें।
यदि Π_H(n) = 2ⁿ, तो हमारा वर्ग उस बिंदु समुच्चय को शैटर करता है — वह हर संभव लेबलिंग उत्पन्न कर सकता है। यदि Π_H(n) < 2ⁿ, तो कुछ लेबलिंग नहीं हो सकतीं।
सामान्य स्थिति में तीन बिंदु
ℝ² में रैखिक वर्गीकारक किसी भी 3 गैर-संरेख बिंदुओं को शैटर करते हैं। 2³ = 8 लेबलिंग; सभी 8 किसी न किसी रेखा द्वारा प्राप्त होती हैं। कोई भी 3 बिंदु चुनें; प्रत्येक ±/± लेबलिंग के लिए, एक रेखा खींचें जो धनात्मक को ऋणात्मक से अलग करती है।
चार बिंदु शैटर होने से इनकार करते हैं
एक वर्ग के कोनों पर 4 बिंदु रखें। विकर्ण जोड़ी को धनात्मक और प्रति-विकर्ण जोड़ी को ऋणात्मक के रूप में लेबल करने का प्रयास करें (XOR लेबलिंग)। कोई भी सीधी रेखा उन्हें अलग नहीं करती। तो Π_H(4) ≤ 14 < 16 = 2⁴।
अधिकतम शैटर आकार के रूप में VC आयाम
VC(रैखिक ℝ²) = 3। हम 3 बिंदु शैटर कर सकते हैं; हम 4 शैटर नहीं कर सकते। VC हमारी परिकल्पना वर्ग की अधिकतम डाइकोटोमी क्षमता गिनती है।
ज्यामितीय अंतर्ज्ञान
अधिक VC = हमारा वर्ग अधिक विस्तृत निर्णय सीमाएँ खींचता है। रैखिक (d आयामों में VC = d+1) हाइपरप्लेन खींचता है। बहुपद वक्र खींचते हैं। तंत्रिका नेटवर्क अत्यधिक मुड़े हुए मैनिफोल्ड खींचते हैं। अधिक मोड़ने की क्षमता = अधिक डाइकोटोमी = अधिक VC = अधिक नमूना आवश्यकता।
डाइकोटोमी की गिनती
ℝ² में रैखिक वर्गीकारक (रेखाएँ) पर विचार करें। हमारे पास सामान्य स्थिति में रखे 5 बिंदु हैं (कोई 3 संरेख नहीं, कोई अनावश्यक नहीं)।
परिकल्पना मैनिफोल्ड पर संभावना द्रव्यमान
PAC-Bayes की कल्पना
हमारे परिकल्पना स्थान को एक उच्च-आयामी मैनिफोल्ड के रूप में देखें। इस मैनिफोल्ड पर प्रत्येक बिंदु एक तंत्रिका नेटवर्क के एक भार विन्यास से मेल खाता है। पूर्व P हमारे मैनिफोल्ड पर एक संभावना वितरण निर्दिष्ट करता है (अक्सर आरंभीकरण पर केंद्रित गाऊसी)। पश्च Q उन क्षेत्रों में संभावना द्रव्यमान को केंद्रित करता है जहाँ प्रशिक्षण डेटा ने हमारे भार को धकेला।
ज्यामितीय दूरी के रूप में KL डाइवर्जेंस
KL(Q‖P) मापता है कि Q P से कितना दूर चला गया है। ज्यामितीय पठन: हमारा पश्च बादल पूर्व बादल से कितना चला गया है, यह इस बात से भारित होकर कि प्रत्येक पश्च क्षेत्र हमारे पूर्व के अंतर्गत कितना असंभाव्य था।
छोटा KL = Q P के साथ भारी रूप से अतिव्यापी होता है। पश्च मुश्किल से चला। सामान्यीकरण अंतर छोटा रहता है।
बड़ा KL = Q उन क्षेत्रों में केंद्रित हुआ जहाँ P ने कम द्रव्यमान निर्दिष्ट किया था। पश्च बहुत चला। सामान्यीकरण अंतर बढ़ता है।
यह ज्यामिति क्यों मायने रखती है
SGD को हमारे परिकल्पना मैनिफोल्ड में एक खोज प्रक्षेपवक्र के रूप में देखें। प्रक्षेपवक्र निम्न प्रशिक्षण हानि के एक बेसिन में समाप्त होता है। PAC-Bayes पूछता है: यह बेसिन कितना चौड़ा है?
चौड़ा बेसिन = कई पड़ोसी भार विन्यास भी निम्न प्रशिक्षण हानि प्राप्त करते हैं। पश्च Q एक विस्तृत क्षेत्र पर फैल सकता है और फिर भी निम्न जोखिम रख सकता है। KL(Q‖P) सीमित रहता है। सामान्यीकरण अंतर छोटा।
संकीर्ण बेसिन = केवल एक पतला भार समुच्चय निम्न हानि प्राप्त करता है। पश्च को तीव्रता से केंद्रित होना चाहिए। KL बढ़ता है। सामान्यीकरण अंतर चौड़ा होता है।
यह सीधे फ्लैट-बनाम-शार्प मिनिमा चर्चा से जुड़ता है (Hochreiter & Schmidhuber 1997, Keskar et al 2017)। फ्लैट मिनिमा बेहतर सामान्यीकरण करते हैं क्योंकि वे छोटे KL के साथ चौड़े पश्च का समर्थन करते हैं।
एक बेसिन की चौड़ाई पढ़ना
दो प्रशिक्षित मॉडल समान प्रशिक्षण हानि तक पहुँचते हैं लेकिन विभिन्न बेसिन में रहते हैं:
- मॉडल A: फ्लैट बेसिन, पश्च KL(Q_A‖P) = 50 nats के साथ क्षेत्र पर फैलता है।
- मॉडल B: शार्प बेसिन, पश्च KL(Q_B‖P) = 500 nats के साथ केंद्रित होता है।
दोनों n = 10,000 उदाहरणों पर अनुभवजन्य जोखिम 0.05, δ = 0.05 के साथ प्रशिक्षित।
एक वक्र जो वहाँ गिरता है जहाँ सिद्धांत ने उठने की भविष्यवाणी की थी
शास्त्रीय U-वक्र
मॉडल क्षमता को क्षैतिज अक्ष पर प्लॉट करें। परीक्षण जोखिम को ऊर्ध्वाधर अक्ष पर प्लॉट करें। शास्त्रीय बायस-वैरिएन्स सिद्धांत भविष्यवाणी करता है:
- कम क्षमता: उच्च बायस, उच्च परीक्षण जोखिम (अंडरफिट)
- मध्यम क्षमता: कम बायस + कम वैरिएन्स, कम परीक्षण जोखिम (मधुर बिंदु)
- उच्च क्षमता: कम बायस, उच्च वैरिएन्स, उच्च परीक्षण जोखिम (ओवरफिट)
परिणाम: U-आकार का वक्र। हमारे तल पर क्षमता चुनें।
Belkin et al (2019) ने क्या देखा
इंटरपोलेशन सीमा के पार (वह क्षमता जहाँ मॉडल शून्य त्रुटि के साथ प्रशिक्षण डेटा को बिल्कुल फिट करता है), परीक्षण जोखिम फिर से गिरता है। वक्र पढ़ता है: अवरोहण → इंटरपोलेशन पर शिखर → दूसरा अवरोहण। दो अवरोहण, एक वक्र।
दूसरे अवरोहण का ज्यामितीय पठन
इंटरपोलेशन सीमा पर, मॉडल के पास प्रशिक्षण डेटा को फिट करने के लिए बस पर्याप्त क्षमता होती है — केवल एक (या कुछ) इंटरपोलेटिंग समाधान मौजूद हैं और वे दांतेदार होते हैं। सामान्यीकरण कष्ट सहता है क्योंकि चुना गया समाधान बाध्य होता है।
इंटरपोलेशन सीमा के पार, कई इंटरपोलेटिंग समाधान मौजूद हैं। SGD को एक चिकना (न्यूनतम-नॉर्म, कम-वक्रता) चुनने की स्वतंत्रता है। ज्यामितीय चित्र: समाधान मैनिफोल्ड चौड़ा और चपटा हो जाता है। SGD का अंतर्निहित नियमितीकरण इस चपटे मैनिफोल्ड से सौम्य समाधान चुनता है। परीक्षण जोखिम गिरता है।
शास्त्रीय सिद्धांत यह क्यों चूकता है
VC आयाम समाधान-समुच्चय क्षमता गिनता है लेकिन यह अनदेखा करता है कि कौन सा समाधान चुना जाता है। शास्त्रीय सीमा सबसे खराब-स्थिति अनुभवजन्य जोखिम न्यूनीकरणकर्ता मानती है। वास्तविकता: SGD विश्वसनीय रूप से हमारा सबसे चपटा, सबसे चिकना इंटरपोलेटिंग समाधान चुनता है। एक बार जब हम सभी समाधानों के बजाय हल-कर्ता-चयनित समाधान गिनते हैं, दूसरा अवरोहण समझ में आता है।
ज्यामितीय निष्कर्ष
क्षमता बेसिन ज्यामिति से कम मायने रखती है। चौड़े फ्लैट बेसिन (पोस्ट-इंटरपोलेशन) संकीर्ण शार्प वालों (इंटरपोलेशन पर) से बेहतर सामान्यीकरण करते हैं। आधुनिक सिद्धांत पैरामीटर गणना से नहीं, बल्कि बेसिन चौड़ाई से सामान्यीकरण को सीमित करने का प्रयास करता है।
दो अवरोहणों का स्थान
एक डबल डिसेंट वक्र पर, तीन क्षेत्र मायने रखते हैं: (1) अंडर-पैरामीटराइज्ड शासन, (2) इंटरपोलेशन शिखर, (3) ओवर-पैरामीटराइज्ड शासन।
पैरामीटर-टोकन स्थान में पावर-लॉ सतह
एक 3D सतह
पैरामीटर N को एक क्षैतिज अक्ष पर प्लॉट करें। टोकन D को दूसरे क्षैतिज अक्ष पर प्लॉट करें। हानि L को ऊर्ध्वाधर पर प्लॉट करें। अनुभवजन्य हानि इस (N, D) तल पर एक पावर-लॉ सतह उकेरती है:
L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞
जैसे-जैसे N या D बढ़ता है, सतह नीचे की ओर ढलती है। ढलान लॉग-रैखिक पावर नियमों का अनुसरण करते हैं (लॉग-लॉग प्लॉट में सीधी रेखाएँ)। एसिम्प्टोट L∞ धनात्मक रहता है — अप्रत्यावर्तनीय हानि जिसे हमारा मॉडल पार नहीं कर सकता।
कंप्यूट-अनुकूल कटक
कुल कंप्यूट बजट C ∝ N × D (पैरामीटर × टोकन, मोटे तौर पर) तय करें। हमारी सतह को इस बाधा के साथ काटें। कटी हुई रेखा 3D सतह से होकर 2D वक्र काटती है। इस वक्र का तल = कंप्यूट-अनुकूल बिंदु।
Chinchilla (Hoffmann et al 2022) ने इस तल की विश्लेषणात्मक रूप से गणना की: D_opt ≈ 20 × N। कंप्यूट बजट के साथ वक्र = एक कटक। कटक के साथ चलना: समान कंप्यूट, घटती हानि। कटक से बाहर चलना (टोकन से 20× अधिक पैरामीटर, या कम): बर्बाद कंप्यूट।
GPT-3 बनाम Chinchilla का ज्यामितीय पठन
GPT-3: 175B पैरामीटर, 300B टोकन। Chinchilla-अनुकूल 175B × 20 = 3500B टोकन चाहेगा। GPT-3 हमारे पैरामीटर-भारी दिशा में कंप्यूट-अनुकूल कटक से बहुत दूर बैठता है। Chinchilla स्वयं: 1400B टोकन पर प्रशिक्षित 70B पैरामीटर। 1400 / 70 = 20 — ठीक कटक पर। Chinchilla ज्यामितीय अनुकूलतम पर बैठकर GPT-3 के पैरामीटर गणना के आधे से कम के साथ उसे हराया।
ऊर्ध्वाधर तल के रूप में डेटा वॉल
सार्वजनिक वेब ~10¹³ उपयोगी टोकन। यह हमारे पैरामीटर-टोकन तल पर D = 10¹³ पर एक ऊर्ध्वाधर दीवार के रूप में प्लॉट होता है। इस दीवार से परे, कंप्यूट-अनुकूल प्रशिक्षण के लिए N ≤ D / 20 = 5 × 10¹¹ पैरामीटर चाहिए। N = 5 × 10¹¹ से परे की दीवारें या तो अंडर-प्रशिक्षित (कटक से बाहर) चलती हैं या दीवार को बाहर धकेलने के लिए सिंथेटिक / मल्टीमॉडल / RL डेटा की आवश्यकता होती है।
कंप्यूट-अनुकूल कटक पर चलना
हम GPT-3 निर्देशांक पर बैठते हैं: N = 175B पैरामीटर, D = 300B टोकन। कंप्यूट प्रॉक्सी C = N × D = 5.25 × 10²² पैरामीटर-टोकन।
एक सुई में सिकुड़ता बीटा पश्च
[0, 1] पर एक संभावना घनत्व
Beta(α, β) इकाई अंतराल [0, 1] पर एक संभावना घनत्व है। चर: ε = सच्ची त्रुटि दर। आकार: α उच्च-ε पक्ष पर द्रव्यमान को नियंत्रित करता है; β निम्न-ε पक्ष पर द्रव्यमान को नियंत्रित करता है।
Beta(1, 1): एकसमान — कोई जानकारी नहीं, [0, 1] पर सपाट घनत्व।
Beta(α, β) जब α + β बड़ा है: α / (α + β) पर केंद्रित शिखर।
बीटा शिखर की चौड़ाई 1/√(α+β) के रूप में सिकुड़ती है। हमारे पूर्व में 100 अवलोकन जोड़ने से शिखर √100 = 10 गुना सख्त हो जाता है। 10000 अवलोकन जोड़ने से √10000 = 100 गुना सख्त हो जाता है।
एक ऑडिट रन का ज्यामितीय पठन
शुरू: Beta(1, 1) = [0, 1] पर सपाट आयत। ε के बारे में अधिकतम अनिश्चितता।
8 खंडनों के साथ 200 क्वेरीज़ के बाद: Beta(9, 193)। माध्य = 9/202 ≈ 0.045। घनत्व अब विशिष्ट चौड़ाई σ ≈ 0.014 के साथ 0.045 के पास केंद्रित एक तीव्र कूबड़।
80 खंडनों के साथ 2000 क्वेरीज़ के बाद: Beta(81, 1921)। माध्य अभी भी ≈ 0.045, लेकिन चौड़ाई σ ≈ 0.0046। कूबड़ तीन गुना तेज।
8000 खंडनों के साथ 200,000 क्वेरीज़ के बाद: Beta(8001, 192,001)। माध्य ≈ 0.040, चौड़ाई σ ≈ 0.0004। कूबड़ एक सुई बन जाता है।
एक बिंदु द्रव्यमान की ओर ज्यामितीय अभिसरण
जैसे ही n → ∞, बीटा पश्च सच्चे ε पर एक डायरैक डेल्टा में ढह जाता है। ज्यामिति: आयत → चौड़ा कूबड़ → संकीर्ण कूबड़ → सुई → बिंदु। प्रत्येक क्वेरी हमारे वितरण को 1/√n से सख्त करती है।
यह सैद्धांतिक PAC सीमाओं को क्यों हराता है
सैद्धांतिक PAC सीमाएँ परिकल्पना वर्ग आकार के आधार पर एक स्थिर ε अनुमान देती हैं। बीटा पश्च एक गतिशील ε अनुमान देता है जो प्रत्येक अवलोकन के साथ सख्त होता है, आपके वास्तविक-दुनिया वितरण के विरुद्ध कैलिब्रेटेड। सैद्धांतिक सीमा = सबसे खराब-स्थिति मान्यताओं के तहत एक गारंटी। अनुभवजन्य ऑडिट = वास्तविक वास्तविकता का माप।
विश्वसनीय अंतराल को आधा करने के लिए कितनी क्वेरीज़?
हम वर्तमान में 200 क्वेरीज़ के बाद Beta(9, 193) पर बैठते हैं: माध्य ε ≈ 0.045, σ ≈ 0.014। हम विश्वसनीय-अंतराल चौड़ाई को σ ≈ 0.007 तक आधा करना चाहते हैं।