English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

चरण 0-20K: एक सीमित आहार

दो चरण, एक रन

v2 फायरहोज पाठ्यक्रम एक ही 200K-चरण प्रशिक्षण रन के अंदर दो चरणों में चलता है:


चरण A (चरण 0 से 20K तक). बैंडिट केवल 7 चैट और गद्य स्रोतों से खींचता है:


- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg


चरण B (चरण 20K से 200K). बैंडिट पूर्ण मिश्रण से खींचता है, सभी 16 स्रोतों से, जिसमें संदर्भ (dictionary), तकनीकी (repo-docs, repo-commits), और सामाजिक (irc, unweapon) शामिल हैं।


Curriculum warmup timeline


प्रतिबंधित आहार क्या साझा करता है

सात वार्मअप स्रोतों में से छह संवादात्मक हैं। एक (gutenberg) पैराग्राफ गद्य है। साथ में वे एक सामान्य आकार साझा करते हैं: टर्न संरचना (प्रॉम्प्ट फिर प्रतिक्रिया) या कथा प्रवाह। 7 स्रोतों में शब्दावली वितरण लगभग सामान्य अंग्रेजी जैसा दिखता है; क्रॉस-एंट्रॉपी लक्ष्य एक स्थिर रेंज में रहते हैं; ग्रेडिएंट परिमाण अनुमानित रहते हैं।


कॉन्फ़िग फ़ील्ड


"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

वार्मअप चरण की पहचान करें

एक ट्रेनिंग रन ने 18,400 स्टेप्स के लिए चलाया है। बैंडिट स्टेट को देखे बिना, क्या मॉडल ने `dictionary` या `repo-docs` से सैंपल किया हो सकता है? समझाएं कि क्यों या क्यों नहीं & उस कॉन्फ़िगरेशन वैल्यू का हवाला दें जो इसे निर्धारित करती है।

वार्मअप के बिना v1 कैसा दिखता था

v1: स्टेप 0 से सभी 16 स्रोत

पहला ANDREA-120M ट्रेनिंग रन (मार्च-अप्रैल 2026) ने स्टेप 0 पर पूर्ण फायरहोज़ सक्रिय किया: 16 स्रोत, जिसमें dictionary (88K शब्द परिभाषाएं > define X / < X is... आकार में), repo-docs (मार्कडाउन डॉक्यूमेंटेशन), repo-docstrings (पायथन डॉकस्ट्रिंग्स), & repo-commits (गिट कमिट मैसेज चैट & प्रोज़ के साथ) शामिल थे।


क्या गलत हुआ

एक ताज़ा प्रारंभित 120M मॉडल जिसमें यादृच्छिक वज़न हैं, 16 भिन्न वितरणों को एक साथ मॉडल नहीं कर सकता। संरचनात्मक रूप से भिन्न स्रोत से प्रत्येक बैच एक भिन्न ग्रेडिएंट दिशा उत्पन्न करता है। स्रोत हर 7-42 चरणों में परिवर्तित होता था जिससे ग्रेडिएंट परिमाण जंगली रूप से झूलते थे; मॉडल प्रतिनिधित्व बनाने से तेज़ आकर्षकों के बीच कूदता था।


चरण 80K तक, v1 ने उत्पन्न किया: region region region region region region region। Hermes3-general शिक्षक आसवन पुरस्कार (औसत 340-453) ने दोहरावपूर्ण सूची-संरचित स्रोतों को क्रॉस-एंट्रोपी पर सबसे ऊँचा स्कोर दिया, जिसे बैंडिट ने 'ये आर्म्स आसान हैं' के रूप में व्याख्या किया। बैंडिट ने मॉडल को वही और अधिक खिलाया जो इसे विकृत कर रहा था।


7 स्रोतों तक सीमित करने से क्यों मदद मिलती है

1. वितरण समानता। सभी 7 वार्मअप स्रोत समान आकार (टर्न संरचना या कथा) के पाठ उत्पन्न करते हैं। बैचों में ग्रेडिएंट दिशाएँ लगभग संरेखित रहती हैं।

2. सुसंगति पहले। मॉडल शब्दावली आवृत्ति, वाक्यरचना पैटर्न, और संवाद संरचना को परिभाषा सूचियों, कोड, या गिट संदेशों से मिलने से पहले सीखता है।

3. स्थिर पाठ्यक्रम। 7 चैट/गद्य स्रोतों पर बैंडिट पुरस्कार संकेत एक तुलनीय रेंज में रहते हैं; UCB1 चयन एक असामान्य रूप से पुरस्कृत स्रोत द्वारा अपहरण नहीं होता।


जब चरण B सक्रिय होता है

चरण 20K पर, मॉडल ने ~40-50 नमूने उत्पन्न किए हैं (प्रति 100 चरणों में एक), नमूनों में सुसंगत अंग्रेजी दिखाई देती है, और स्थिर बिग्राम और ट्रिग्राम वितरण बनाए गए हैं। अब यह शब्दकोश के > define X / < X is... पैटर्न, repo-docs के कोड ब्लॉकों, और गिट कमिट हेडरों को अवशोषित कर सकता है बिना नीचे की चैट संरचना खोए।

v1 की विफलता का निदान करें

एक ताज़ा प्रारंभित 120M ट्रांसफॉर्मर चरण 0 से 16 संरचनात्मक रूप से भिन्न स्रोतों पर प्रशिक्षित होता है। चरण 80K तक, नमूने `region region region region region` पढ़ते हैं। इस विशिष्ट विफलता मोड को no-warmup डिज़ाइन विकल्प से जोड़ें: चरण 0 पर 16 स्रोतों द्वारा मॉडल को एकल-टोकन पुनरावृत्ति में ढहने का तंत्र नाम दें। एक या दो वाक्य।

v3 Polish curriculum_warmup_steps = 0 सेट करता है

एक भिन्न प्रारंभिक बिंदु

v3 polish pivot step 112,619 पर step_112600.bin से प्रशिक्षण को फिर से शुरू किया गया curriculum_warmup_steps को 0 पर सेट करके। पहली नजर में यह विरोधाभास जैसा लगता है: यदि warmup ने v2 की मदद की, तो polish phase के लिए इसे क्यों अक्षम करें?


क्योंकि मॉडल ने पहले ही Coherence सीख ली है

Phase A नई प्रारंभित मॉडल को शब्दावली आवृत्ति, टर्न संरचना, और पैराग्राफ सामंजस्य सीखने के लिए समय प्रदान करता है। चरण 112K तक, मॉडल ने पहले ही यह सब कर लिया है। 112K पर सैंपल ऑडिट्स में सुसंगत संवादात्मक टर्न, हाइकू, Q&A, और संवाद दिखे। वार्मअप का मूल उद्देश्य (नए नाजुक मॉडल को ग्रेडिएंट अराजकता से बचाना) अब लागू नहीं होता।


पॉलिश दोबारा वेट करता है, रीस्टार्ट नहीं करता

पॉलिश एक पाठ्यक्रम व्यतिक्रमण है, नई रन नहीं। वही 200K लक्ष्य, वही आर्किटेक्चर, वही ऑप्टिमाइज़र स्थिति, वही लॉस इतिहास। जो बदलता है: स्रोत कैप्स और फ्लोर्स को संवाद को ज्ञान हथियारों पर प्राथमिकता देने के लिए दोबारा वेट किया जाता है। मॉडल पहले से ही सुसंगत होने के कारण, चरण 112,619 से हर सक्रिय स्रोत वैध है।


सारांश तालिका


Phasecurriculum_warmup_stepsWhy
v1(उपस्थित नहीं)चरण 0 से सभी 16 स्रोत -> संपीड़न
v2 (चरण 0-200K)20,000नवीनतम प्रारंभीकृत वेट्स को ग्रेडिएंट अराजकता से बचाएं
v3 base (चरण 0-112K)20,000v2 जैसी ही सुरक्षा
v3 polish (चरण 112K-200K)0मॉडल पहले से ही सुसंगत; संरक्षित करने के लिए कोई नाजुक-प्रारंभिक अवस्था नहीं

पॉलिश पर वार्मअप को अक्षम करने के पीछे का कारण सुरक्षित क्यों है

तर्क दें (2-3 वाक्यों में) कि v3 पॉलिश मोड़ पर curriculum_warmup_steps = 0 सेट करने से v1 संपीड़न को पुनर्सृजित नहीं करता, भले ही दोनों रनों में 'वर्तमान चरण से सभी स्रोत सक्रिय' हों। चरण 112K पर मॉडल की स्थिति का उल्लेख करें।