un — भाषा मॉडल विकसित करें: पाठ्यक्रम वार्मअप [DESCRIPTION /]

un

guest

1 / ?

back to lessons

चरण 0-20K: एक सीमित आहार

दो चरण, एक रन

v2 फायरहोज पाठ्यक्रम एक ही 200K-चरण प्रशिक्षण रन के अंदर दो चरणों में चलता है:

चरण A (चरण 0 से 20K तक). बैंडिट केवल 7 चैट और गद्य स्रोतों से खींचता है:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

चरण B (चरण 20K से 200K). बैंडिट पूर्ण मिश्रण से खींचता है, सभी 16 स्रोतों से, जिसमें संदर्भ (dictionary), तकनीकी (repo-docs, repo-commits), और सामाजिक (irc, unweapon) शामिल हैं।

Curriculum warmup timeline

प्रतिबंधित आहार क्या साझा करता है

सात वार्मअप स्रोतों में से छह संवादात्मक हैं। एक (gutenberg) पैराग्राफ गद्य है। साथ में वे एक सामान्य आकार साझा करते हैं: टर्न संरचना (प्रॉम्प्ट फिर प्रतिक्रिया) या कथा प्रवाह। 7 स्रोतों में शब्दावली वितरण लगभग सामान्य अंग्रेजी जैसा दिखता है; क्रॉस-एंट्रॉपी लक्ष्य एक स्थिर रेंज में रहते हैं; ग्रेडिएंट परिमाण अनुमानित रहते हैं।

कॉन्फ़िग फ़ील्ड

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

वार्मअप चरण की पहचान करें

एक ट्रेनिंग रन ने 18,400 स्टेप्स के लिए चलाया है। बैंडिट स्टेट को देखे बिना, क्या मॉडल ने `dictionary` या `repo-docs` से सैंपल किया हो सकता है? समझाएं कि क्यों या क्यों नहीं & उस कॉन्फ़िगरेशन वैल्यू का हवाला दें जो इसे निर्धारित करती है।

वार्मअप के बिना v1 कैसा दिखता था

v1: स्टेप 0 से सभी 16 स्रोत

पहला ANDREA-120M ट्रेनिंग रन (मार्च-अप्रैल 2026) ने स्टेप 0 पर पूर्ण फायरहोज़ सक्रिय किया: 16 स्रोत, जिसमें dictionary (88K शब्द परिभाषाएं > define X / < X is... आकार में), repo-docs (मार्कडाउन डॉक्यूमेंटेशन), repo-docstrings (पायथन डॉकस्ट्रिंग्स), & repo-commits (गिट कमिट मैसेज चैट & प्रोज़ के साथ) शामिल थे।

क्या गलत हुआ

एक ताज़ा प्रारंभित 120M मॉडल जिसमें यादृच्छिक वज़न हैं, 16 भिन्न वितरणों को एक साथ मॉडल नहीं कर सकता। संरचनात्मक रूप से भिन्न स्रोत से प्रत्येक बैच एक भिन्न ग्रेडिएंट दिशा उत्पन्न करता है। स्रोत हर 7-42 चरणों में परिवर्तित होता था जिससे ग्रेडिएंट परिमाण जंगली रूप से झूलते थे; मॉडल प्रतिनिधित्व बनाने से तेज़ आकर्षकों के बीच कूदता था।

चरण 80K तक, v1 ने उत्पन्न किया: region region region region region region region। Hermes3-general शिक्षक आसवन पुरस्कार (औसत 340-453) ने दोहरावपूर्ण सूची-संरचित स्रोतों को क्रॉस-एंट्रोपी पर सबसे ऊँचा स्कोर दिया, जिसे बैंडिट ने 'ये आर्म्स आसान हैं' के रूप में व्याख्या किया। बैंडिट ने मॉडल को वही और अधिक खिलाया जो इसे विकृत कर रहा था।

7 स्रोतों तक सीमित करने से क्यों मदद मिलती है

1. वितरण समानता। सभी 7 वार्मअप स्रोत समान आकार (टर्न संरचना या कथा) के पाठ उत्पन्न करते हैं। बैचों में ग्रेडिएंट दिशाएँ लगभग संरेखित रहती हैं।

2. सुसंगति पहले। मॉडल शब्दावली आवृत्ति, वाक्यरचना पैटर्न, और संवाद संरचना को परिभाषा सूचियों, कोड, या गिट संदेशों से मिलने से पहले सीखता है।

3. स्थिर पाठ्यक्रम। 7 चैट/गद्य स्रोतों पर बैंडिट पुरस्कार संकेत एक तुलनीय रेंज में रहते हैं; UCB1 चयन एक असामान्य रूप से पुरस्कृत स्रोत द्वारा अपहरण नहीं होता।

जब चरण B सक्रिय होता है

चरण 20K पर, मॉडल ने ~40-50 नमूने उत्पन्न किए हैं (प्रति 100 चरणों में एक), नमूनों में सुसंगत अंग्रेजी दिखाई देती है, और स्थिर बिग्राम और ट्रिग्राम वितरण बनाए गए हैं। अब यह शब्दकोश के > define X / < X is... पैटर्न, repo-docs के कोड ब्लॉकों, और गिट कमिट हेडरों को अवशोषित कर सकता है बिना नीचे की चैट संरचना खोए।

v1 की विफलता का निदान करें

एक ताज़ा प्रारंभित 120M ट्रांसफॉर्मर चरण 0 से 16 संरचनात्मक रूप से भिन्न स्रोतों पर प्रशिक्षित होता है। चरण 80K तक, नमूने `region region region region region` पढ़ते हैं। इस विशिष्ट विफलता मोड को no-warmup डिज़ाइन विकल्प से जोड़ें: चरण 0 पर 16 स्रोतों द्वारा मॉडल को एकल-टोकन पुनरावृत्ति में ढहने का तंत्र नाम दें। एक या दो वाक्य।

v3 Polish curriculum_warmup_steps = 0 सेट करता है

एक भिन्न प्रारंभिक बिंदु

v3 polish pivot step 112,619 पर step_112600.bin से प्रशिक्षण को फिर से शुरू किया गया curriculum_warmup_steps को 0 पर सेट करके। पहली नजर में यह विरोधाभास जैसा लगता है: यदि warmup ने v2 की मदद की, तो polish phase के लिए इसे क्यों अक्षम करें?

क्योंकि मॉडल ने पहले ही Coherence सीख ली है

Phase A नई प्रारंभित मॉडल को शब्दावली आवृत्ति, टर्न संरचना, और पैराग्राफ सामंजस्य सीखने के लिए समय प्रदान करता है। चरण 112K तक, मॉडल ने पहले ही यह सब कर लिया है। 112K पर सैंपल ऑडिट्स में सुसंगत संवादात्मक टर्न, हाइकू, Q&A, और संवाद दिखे। वार्मअप का मूल उद्देश्य (नए नाजुक मॉडल को ग्रेडिएंट अराजकता से बचाना) अब लागू नहीं होता।

पॉलिश दोबारा वेट करता है, रीस्टार्ट नहीं करता

पॉलिश एक पाठ्यक्रम व्यतिक्रमण है, नई रन नहीं। वही 200K लक्ष्य, वही आर्किटेक्चर, वही ऑप्टिमाइज़र स्थिति, वही लॉस इतिहास। जो बदलता है: स्रोत कैप्स और फ्लोर्स को संवाद को ज्ञान हथियारों पर प्राथमिकता देने के लिए दोबारा वेट किया जाता है। मॉडल पहले से ही सुसंगत होने के कारण, चरण 112,619 से हर सक्रिय स्रोत वैध है।

सारांश तालिका

Phase	curriculum_warmup_steps	Why
v1	(उपस्थित नहीं)	चरण 0 से सभी 16 स्रोत -> संपीड़न
v2 (चरण 0-200K)	20,000	नवीनतम प्रारंभीकृत वेट्स को ग्रेडिएंट अराजकता से बचाएं
v3 base (चरण 0-112K)	20,000	v2 जैसी ही सुरक्षा
v3 polish (चरण 112K-200K)	0	मॉडल पहले से ही सुसंगत; संरक्षित करने के लिए कोई नाजुक-प्रारंभिक अवस्था नहीं

पॉलिश पर वार्मअप को अक्षम करने के पीछे का कारण सुरक्षित क्यों है

तर्क दें (2-3 वाक्यों में) कि v3 पॉलिश मोड़ पर curriculum_warmup_steps = 0 सेट करने से v1 संपीड़न को पुनर्सृजित नहीं करता, भले ही दोनों रनों में 'वर्तमान चरण से सभी स्रोत सक्रिय' हों। चरण 112K पर मॉडल की स्थिति का उल्लेख करें।