English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

Trade skills. Real careers. Your path.

+

Create a Lesson

Log in to create and share your own lessons.

geometry of machine learning

ANDREA की ज्यामिति: भाषा मॉडल प्रशिक्षण की पाँच स्थानिक तस्वीरें [DESCRIPTION /]

ANDREA का हर भाग एक आकार रखता है। एम्बेडिंग स्पेस R^768 में अर्थ-संबंधी दूरी को यूक्लिडियन दूरी के रूप में दर्शाता है। अटेंशन पिछले टोकनों का क्वेरी सबस्पेस पर प्रोजेक्शन बनाता है। लॉस सरफेस एक उच्च-आयामी भू-भाग है जिस पर ग्रेडिएंट डिसेंट चलता है। बैंडिट वेट्स एक असतत सिम्प्लेक्स बनाते हैं जहाँ प्रत्येक शीर्ष एक डेटा स्रोत है और प्रत्येक आंतरिक बिंदु एक पाठ्यक्रम मिश्रण है। पाठ्यक्रम वार्मअप एक प्रतिबंधित सबमैनिफोल्ड प्रोजेक्शन बनाता है। पाँच ज्यामितियाँ, एक मॉडल। प्रत्येक चित्र पर चलें और वह स्थानिक अंतर्ज्ञान लॉक करें जो केवल अमूर्त समीकरण नहीं दे सकते। [TITLE embedding_space/]

machine learning

भाषा मॉडल विकसित करें: स्रोत फ्लोर्स & एपॉच पेनल्टी [DESCRIPTION /]

UCB1 आर्म्स को रैंक करता है; चरण-आधारित डाइस नियंत्रण फोकस सेट्स को इकट्ठा करता है। लेकिन कच्चा बैंडिट आउटपुट प्राथमिकता स्रोतों को भूखा रख सकता है या छोटे स्रोतों को याद कर सकता है। ANDREA दो सुरक्षात्मक नियमों को ऊपर लेपित करता है: स्रोत फ्लोर्स प्रति स्रोत न्यूनतम सैंपलिंग वजन की गारंटी देते हैं, & एपॉच पेनल्टीज़ उन स्रोतों का वजन कम करती हैं जिन्हें प्रति दस्तावेज़ एक से अधिक बार खींचा गया है (1/(1+epochs))। जीवनकाल खींचने रीस्टार्ट्स के पार बने रहते हैं। यह गतिविधि दोनों नियमों को कार्यान्वित उदाहरणों के साथ चलाती है। [TITLE source_floors/]

machine learning

भाषा मॉडल विकसित करें: कवरेज बोनस [DESCRIPTION /]

डॉक्यूमेंट-स्तरीय कवरेज ट्रैकिंग और 1.3x ताजगी बोनस एक बैंडिट को अन्वेषित डेटा की ओर धकेलता है। CUDA प्रत्येक स्टेप में सैंपल किए गए दस्तावेज़ सूचकांक की रिपोर्ट करता है; एक प्रॉक्सी प्रति स्रोत अद्वितीय डॉक सूचकांकों को ट्रैक करता है। 50% कवरेज से नीचे के स्रोतों को 1.3x की ओर स्केलिंग करने वाला मल्टीप्लायर मिलता है। यह गतिविधि गणित को समझाती है, कवरेज बोनस की तुलना एपॉक पेनल्टी से करती है, और दिखाती है कि डॉक्यूमेंट-स्तरीय ताजगी 200K ट्रेनिंग स्टेप्स के दौरान 500K-दस्तावेज़ गुटेनबर्ग कॉर्पस को 2K-दस्तावेज़ सबसेट में ढहने से कैसे रोकती है। [TITLE doc_tracking/]

machine learning

भाषा मॉडल को विकसित करें: आकार से फ़िल्टर करें, न कि वर्णों से [DESCRIPTION /]

दूषित डेटा पर प्रशिक्षित v2: हार्नेस सेशन JSONL से लीक हुए एजेंट सिस्टम प्रॉम्प्ट्स को यूज़र-टर्न स्लॉट में डालें। मॉडल ने सीखा कि उपयोगकर्ता मल्टी-सेक्शन मार्कडाउन में बोलते हैं और एजेंट सजावटों को पुन: उत्पन्न किया। v2.5 पैच: `has_system_prompt_shape()` आकार (हेडर गिनती, लंबाई, फिंगरप्रिंट वाक्यांश) से लीक हुए प्रॉम्प्ट्स का पता लगाता है, न कि वर्ण मिलान से। तीन संकेत एक ड्रॉप निर्णय में संयोजित होते हैं। पुन: फ़िल्टरिंग के बाद हर्मीस3 स्रोतों पर ड्रॉप दरें: 87.7%, 90.4%, 93.0%। यह गतिविधि डिटेक्टर को चलाती है और यह सिखाती है: सजावटें विकसित होती हैं, संरचना स्थिर रहती है। [TITLE contamination/]

machine learning

भाषा मॉडल विकसित करें: कोहेरेंस-गेटेड अर्ली स्टॉपिंग [DESCRIPTION /]

v1 ने 10+ दिनों तक `region region region` उत्पन्न किया क्योंकि eval_chat_quality() केवल पुराने मल्टी-फेज रनर से जुड़ा था और फायरहोज पाठ्यक्रम के दौरान कभी नहीं चला। v2 एक कोहेरेंस गेट के साथ आता है: हर सैंपल चार मेट्रिक्स पर स्कोर करता है (बिग्राम विविधता 0-35, ट्रिग्राम विविधता 0-35, अंग्रेजी शब्द उपस्थिति 0-20, कैरेक्टर विविधता 0-10)। 5 लगातार सैंपल्स के 30 से नीचे स्कोर करने पर स्वचालित रूप से रुकना। v1 पर बैक-टेस्टेड, गेट स्टेप 132K पर ट्रिगर होता, 3.8 दिनों का कम्प्यूट बचाता। यह गतिविधि चार स्कोरर्स, लगातार-काउंटर डिज़ाइन, और संयुक्त मेट्रिक्स के एकल सिग्नल से चूकने वाली विफलताओं को पकड़ने के कारणों को समझाती है। [TITLE v1_undetected/]

machine learning

भाषा मॉडल विकसित करें: नमूना ऑडिट और बाहरी ग्रेडिंग [DESCRIPTION /]

लॉस एक संख्या है। नमूनों को पढ़कर हम जानते हैं कि वह संख्या क्या अर्थ रखती है। हर 100 स्टेप्स में, ANDREA 420 टोकन का फ्री-फॉर्म आउटपुट उत्पन्न करता है, और लॉस प्रत्येक नमूने के साथ पांच स्तरों में आता है: 0.30 = तथ्यात्मक स्मरण (ppl 1, memorized), 0.74 = पाठ्यपुस्तक एक-लाइनर (ppl 2), 1.05 = बाधा अनुसरण (ppl 3), 1.94 = ज्ञानवान लेकिन अस्पष्ट (ppl 7), 0.13 = असामान्य स्मरण (zombie arm signal)। 700 स्टेप्स में छह असंबंधित ज्ञान डोमेन बैंडिट के कार्य करने का प्रमाण देते हैं। बाहरी चैट-गुणवत्ता ग्रेडिंग ने नमूनों को 9.5/10 रेट किया। एक वास्तविक ऑडिट चलाएं, लॉस स्तर सीखें, और एक ज़ॉम्बी आर्म को कार्यवाही में पकड़ें। [TITLE why_audit/]

Unlimited access — no payment required

Complete 2 lessons, write a paragraph about your enterprise & earn solo-tier access through entrepreneur contribution track.

Entrepreneur track →