English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

CUDA डॉक्यूमेंट सूचकांकों की रिपोर्ट करता है

एक CUDA ट्रेनर जानता है कि उसने कौन सा दस्तावेज़ सैंपल किया

प्रत्येक ट्रेनिंग स्टेप एक .btok बाइनरी से एक सीक्वेंस खींचता है, जो कई दस्तावेज़ों को लगातार पैक करता है। CUDA लॉस के साथ एक डॉक सूचकांक रिकॉर्ड करता है: step 47213, source=gutenberg, doc=128407, loss=2.81। एक प्रॉक्सी इन रिपोर्टों को एकत्र करता है और प्रति स्रोत देखे गए अद्वितीय डॉक सूचकांकों का सेट बनाए रखता है।


गणनाओं से कवरेज तक

स्रोत का कवरेज = unique_docs_seen / n_docs। कुछ उदाहरण:


स्रोतn_docsअद्वितीय देखे गएकवरेज
gutenberg512,000154,00030.1%
hermes3-general67,39547,17670.0%
dictionary88,00088,000100.0%
synthetic-chat1,4001,400100.0%

छोटे स्रोत जल्दी संतृप्त हो जाते हैं। बड़े स्रोत हफ्तों तक 50% से नीचे ड्रिफ्ट करते हैं। कवरेज बोनस एक बैंडिट को इनाम देता है उन दस्तावेज़ों को 방문 करने के लिए जिन्हें उसने अभी तक स्रोत के अंदर सैंपल नहीं किया है।


Coverage bonus per source


बोनस फॉर्मूला

कवरेज बोनस 0% कवरेज पर 1.3x से रैखिक रूप से स्केल करता है 50% कवरेज पर 1.0x तक, फिर 50% से ऊपर 1.0x पर फ्लैट:


यदि coverage < 0.5:
bonus = 1.0 + 0.3 * (1.0 - coverage / 0.5)
अन्यथा:
bonus = 1.0

0% कवरेज वाला स्रोत 1.3x अर्जित करता है; 25% कवरेज वाला स्रोत 1.15x अर्जित करता है; 50% कवरेज वाला स्रोत 1.0x तक गिर जाता है। 50% से ऊपर, कोई बोनस लागू नहीं होता।

बोनस की गणना करें

एक रन जिसमें gutenberg कवरेज 30% और hermes3-general कवरेज 70% है। प्रत्येक स्रोत के लिए कवरेज बोनस गुणक की गणना करें। अपना अंकगणित दिखाएं।

दो अलग-अलग ताजगी सिग्नल

एक ही लक्ष्य, अलग ग्रैन्युलैरिटी

एंड्रिया के पास दो तंत्र हैं जो एक ही स्रोत पर अत्यधिक प्रशिक्षण को रोकते हैं। ये समान लगते हैं; ये अलग-अलग चीजों को मापते हैं।


Epoch penalty. कुल अधिक खींचने को ट्रैक करता है। जब lifetime_pulls / n_docs > 1.0, तो एक स्रोत ने सैद्धांतिक रूप से हर दस्तावेज़ को कम से कम एक बार लपेट लिया है। Penalty = 1 / (1 + epochs). 1.4K-दस्तावेज़ synthetic-chat स्रोत पर 5,600 lifetime pulls (epochs = 4) पर penalty 1/5 = 0.2x प्राप्त करता है। Epoch गिनतियाँ रीस्टार्ट्स के पार बनी रहती हैं; वे कभी क्षय नहीं करतीं।


Coverage bonus. एक स्रोत के अंदर प्रति-दस्तावेज़ ताजगी को ट्रैक करता है। CUDA डॉक इंडेक्स रिपोर्ट करता है; प्रॉक्सी प्रति स्रोत एक सेट बनाए रखता है। अद्वितीय डॉक्स के 50% कवरेज से नीचे के स्रोत अधिकतम 1.3x कमाते हैं। Coverage एक स्रोत के पूंछ को एक्सप्लोर करने को पुरस्कृत करता है; epoch penalty इसे समाप्त करने को दंडित करता है।


दोनों क्यों महत्वपूर्ण हैं


सिग्नलट्रैक्सदिशाकैपरीस्टार्ट्स पर बरकरार रहता है
एपोक पेनल्टीएग्रीगेट ओवर-पुलिंगकम करता है1/(1+e)हाँ
कवरेज बोनसप्रति-डॉक फ्रेशनेसबढ़ाता है1.3xहाँ

एक 500K-दस्तावेज़ गुटेनबर्ग स्रोत पूरे 200K ट्रेनिंग रन के दौरान 50% कवरेज से नीचे रह सकता है जबकि कभी एपोक=1 के करीब न पहुँचे। एपोक पेनल्टी इसे नजरअंदाज करता है; कवरेज बोनस सक्रिय रूप से एक बैंडिट को गुटेनबर्ग के अनछुए 70% पूँछ की ओर खींचता है।


इसके विपरीत, एक 1.4K सिंथेटिक-चैट स्रोत कुछ हज़ार पुल्स के अंदर कवरेज (100%) को संतृप्त कर लेता है; कवरेज बोनस 1.0x पर रहता है जबकि एपोक पेनल्टी बढ़ता जाता है।

दोनों को पहचानें

कल्पना करें कि प्रशिक्षण के बीच में दो स्रोत हैं: स्रोत A में 1,400 दस्तावेज़ & 8,400 lifetime pulls हैं। स्रोत B में 500,000 दस्तावेज़ & 80,000 lifetime pulls हैं; प्रॉक्सी ने अब तक B के लिए 75,000 unique doc indices लॉग किए हैं। कौन सा सिग्नल (epoch penalty या coverage bonus) प्रत्येक स्रोत के bandit weight को नियंत्रित करता है, & क्यों?

Coverage Bonus ANDREA को क्या खरीदता है

वह Failure Mode जिसे यह रोकता है

डॉक-लेवल ट्रैकिंग के बिना, प्रति-स्टेप रिवॉर्ड पर चयन करने वाला बैंडिट .btok सीक्वेंस को लालची ढंग से चुनता है। 500K-दस्तावेज़ गुटेनबर्ग कॉर्पस में कुछ हज़ार सीक्वेंस होते हैं जिनका लो क्रॉस-एंट्रॉपी (संगत गद्य, सामान्य शब्दावली) होता है। रिवॉर्ड-ओनली बैंडिट उन सीक्वेंस पर बार-बार लौटता है क्योंकि वे लगातार मजबूत रिवॉर्ड सिग्नल उत्पन्न करते रहते हैं।


परिणाम: 500K-दस्तावेज़ कॉर्पस को 200K ट्रेनिंग स्टेप्स पर शायद 2K-5K विशिष्ट सीक्वेंस पर सैंपल किया जाता है। मॉडल उन सीक्वेंस को याद कर लेता है बिना बाकी को कभी देखे। क्षमता बर्बाद; कवरेज 1% से नीचे अटका रहता है।


कवरेज बोनस क्या खरीदता है

0% कवरेज पर 1.3x, 50% पर 1.0x तक स्केल डाउन। वह धक्का UCB1 चयन के माध्यम से फैलता है: कम कवरेज वाले आर्म्स अपनी प्रति-पुल रिवॉर्ड गिरने पर भी प्रतिस्पर्धी बने रहते हैं। बैंडिट डिज़ाइन से टेल का अन्वेषण करता है न कि संयोग से।


500K-दस्तावेज़ गुटेनबर्ग पर 200K-स्टेप रन में, कवरेज बोनस आमतौर पर देखे गए कवरेज को ~3% (बिना बोनस) से ~25-30% (बोनस के साथ) तक बढ़ा देता है। समान कम्प्यूट, आठ से दस गुना अधिक दस्तावेज़ छुए गए।


ट्रैकिंग कहाँ रहती है


घटकजिम्मेदारी
microgpt_cuda.cuप्रत्येक प्रशिक्षण चरण प्रति डॉक इंडेक्स रिपोर्ट करता है
training_proxy.pyस्रोत प्रति seen_docs सेट बनाए रखता है
training_proxy.pyकवरेज की गणना करता है, बैंडिट रिवॉर्ड पर बोनस लागू करता है
training_proxy.pyseen_docs को रीस्टार्ट्स के पार .state.json में संरक्षित करता है

किसी ठोस इंजीनियरिंग विकल्प से जुड़ें

मान लीजिए आपने ANDREA-120M ट्रेनिंग से कवरेज बोनस हटा दिया। गutenberg आर्म (जिसमें 500K+ दस्तावेज हैं) के लिए विशेष रूप से 200K-स्टेप रन पर एक ठोस परिणाम की भविष्यवाणी करें। कवरेज प्रतिशत, दस्तावेज विविधता, या डाउनस्ट्रीम सैंपल गुणवत्ता में से किसी एक का संदर्भ दें।