चरण 0-20K: एक सीमित आहार
दो चरण, एक रन
v2 फायरहोज पाठ्यक्रम एक ही 200K-चरण प्रशिक्षण रन के अंदर दो चरणों में चलता है:
चरण A (चरण 0 से 20K तक). बैंडिट केवल 7 चैट और गद्य स्रोतों से खींचता है:
- hermes3-general
- hermes3-creative
- hermes3-roleplay
- chat
- smoltalk
- oasst
- gutenberg
चरण B (चरण 20K से 200K). बैंडिट पूर्ण मिश्रण से खींचता है, सभी 16 स्रोतों से, जिसमें संदर्भ (dictionary), तकनीकी (repo-docs, repo-commits), और सामाजिक (irc, unweapon) शामिल हैं।
प्रतिबंधित आहार क्या साझा करता है
सात वार्मअप स्रोतों में से छह संवादात्मक हैं। एक (gutenberg) पैराग्राफ गद्य है। साथ में वे एक सामान्य आकार साझा करते हैं: टर्न संरचना (प्रॉम्प्ट फिर प्रतिक्रिया) या कथा प्रवाह। 7 स्रोतों में शब्दावली वितरण लगभग सामान्य अंग्रेजी जैसा दिखता है; क्रॉस-एंट्रॉपी लक्ष्य एक स्थिर रेंज में रहते हैं; ग्रेडिएंट परिमाण अनुमानित रहते हैं।
कॉन्फ़िग फ़ील्ड
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
वार्मअप चरण की पहचान करें
वार्मअप के बिना v1 कैसा दिखता था
v1: स्टेप 0 से सभी 16 स्रोत
पहला ANDREA-120M ट्रेनिंग रन (मार्च-अप्रैल 2026) ने स्टेप 0 पर पूर्ण फायरहोज़ सक्रिय किया: 16 स्रोत, जिसमें dictionary (88K शब्द परिभाषाएं > define X / < X is... आकार में), repo-docs (मार्कडाउन डॉक्यूमेंटेशन), repo-docstrings (पायथन डॉकस्ट्रिंग्स), & repo-commits (गिट कमिट मैसेज चैट & प्रोज़ के साथ) शामिल थे।
क्या गलत हुआ
एक ताज़ा प्रारंभित 120M मॉडल जिसमें यादृच्छिक वज़न हैं, 16 भिन्न वितरणों को एक साथ मॉडल नहीं कर सकता। संरचनात्मक रूप से भिन्न स्रोत से प्रत्येक बैच एक भिन्न ग्रेडिएंट दिशा उत्पन्न करता है। स्रोत हर 7-42 चरणों में परिवर्तित होता था जिससे ग्रेडिएंट परिमाण जंगली रूप से झूलते थे; मॉडल प्रतिनिधित्व बनाने से तेज़ आकर्षकों के बीच कूदता था।
चरण 80K तक, v1 ने उत्पन्न किया: region region region region region region region। Hermes3-general शिक्षक आसवन पुरस्कार (औसत 340-453) ने दोहरावपूर्ण सूची-संरचित स्रोतों को क्रॉस-एंट्रोपी पर सबसे ऊँचा स्कोर दिया, जिसे बैंडिट ने 'ये आर्म्स आसान हैं' के रूप में व्याख्या किया। बैंडिट ने मॉडल को वही और अधिक खिलाया जो इसे विकृत कर रहा था।
7 स्रोतों तक सीमित करने से क्यों मदद मिलती है
1. वितरण समानता। सभी 7 वार्मअप स्रोत समान आकार (टर्न संरचना या कथा) के पाठ उत्पन्न करते हैं। बैचों में ग्रेडिएंट दिशाएँ लगभग संरेखित रहती हैं।
2. सुसंगति पहले। मॉडल शब्दावली आवृत्ति, वाक्यरचना पैटर्न, और संवाद संरचना को परिभाषा सूचियों, कोड, या गिट संदेशों से मिलने से पहले सीखता है।
3. स्थिर पाठ्यक्रम। 7 चैट/गद्य स्रोतों पर बैंडिट पुरस्कार संकेत एक तुलनीय रेंज में रहते हैं; UCB1 चयन एक असामान्य रूप से पुरस्कृत स्रोत द्वारा अपहरण नहीं होता।
जब चरण B सक्रिय होता है
चरण 20K पर, मॉडल ने ~40-50 नमूने उत्पन्न किए हैं (प्रति 100 चरणों में एक), नमूनों में सुसंगत अंग्रेजी दिखाई देती है, और स्थिर बिग्राम और ट्रिग्राम वितरण बनाए गए हैं। अब यह शब्दकोश के > define X / < X is... पैटर्न, repo-docs के कोड ब्लॉकों, और गिट कमिट हेडरों को अवशोषित कर सकता है बिना नीचे की चैट संरचना खोए।
v1 की विफलता का निदान करें
v3 Polish curriculum_warmup_steps = 0 सेट करता है
एक भिन्न प्रारंभिक बिंदु
v3 polish pivot step 112,619 पर step_112600.bin से प्रशिक्षण को फिर से शुरू किया गया curriculum_warmup_steps को 0 पर सेट करके। पहली नजर में यह विरोधाभास जैसा लगता है: यदि warmup ने v2 की मदद की, तो polish phase के लिए इसे क्यों अक्षम करें?
क्योंकि मॉडल ने पहले ही Coherence सीख ली है
Phase A नई प्रारंभित मॉडल को शब्दावली आवृत्ति, टर्न संरचना, और पैराग्राफ सामंजस्य सीखने के लिए समय प्रदान करता है। चरण 112K तक, मॉडल ने पहले ही यह सब कर लिया है। 112K पर सैंपल ऑडिट्स में सुसंगत संवादात्मक टर्न, हाइकू, Q&A, और संवाद दिखे। वार्मअप का मूल उद्देश्य (नए नाजुक मॉडल को ग्रेडिएंट अराजकता से बचाना) अब लागू नहीं होता।
पॉलिश दोबारा वेट करता है, रीस्टार्ट नहीं करता
पॉलिश एक पाठ्यक्रम व्यतिक्रमण है, नई रन नहीं। वही 200K लक्ष्य, वही आर्किटेक्चर, वही ऑप्टिमाइज़र स्थिति, वही लॉस इतिहास। जो बदलता है: स्रोत कैप्स और फ्लोर्स को संवाद को ज्ञान हथियारों पर प्राथमिकता देने के लिए दोबारा वेट किया जाता है। मॉडल पहले से ही सुसंगत होने के कारण, चरण 112,619 से हर सक्रिय स्रोत वैध है।
सारांश तालिका
| Phase | curriculum_warmup_steps | Why |
|---|---|---|
| v1 | (उपस्थित नहीं) | चरण 0 से सभी 16 स्रोत -> संपीड़न |
| v2 (चरण 0-200K) | 20,000 | नवीनतम प्रारंभीकृत वेट्स को ग्रेडिएंट अराजकता से बचाएं |
| v3 base (चरण 0-112K) | 20,000 | v2 जैसी ही सुरक्षा |
| v3 polish (चरण 112K-200K) | 0 | मॉडल पहले से ही सुसंगत; संरक्षित करने के लिए कोई नाजुक-प्रारंभिक अवस्था नहीं |