un — भाषा मॉडल विकसित करें: नमूना ऑडिट और बाहरी ग्रेडिंग [DESCRIPTION /]

un

guest

1 / ?

back to lessons

v1 का पाठ: लॉस ठीक लगता है, आउटपुट कचरा है

एक चेतावनीपूर्ण कहानी

ANDREA-120M v1 ने स्टेप 110K पर EMA लॉस 3.43 प्राप्त किया, जो रैंडम चांस (ln(8449) = 9.04) से काफी नीचे था। संख्या सम्मानजनक लग रही थी। नमूने नहीं।

चरण 80K:  क्षेत्र क्षेत्र क्षेत्र क्षेत्र क्षेत्र क्षेत्र क्षेत्र
चरण 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
चरण 140K: खेल, खेल, खेल, खेल, खेल, खेल
चरण 165K: बडी बडी बडी बडी बडी बडी बडी बडी

v1 में कोई सैंपल मॉनिटरिंग वायर्ड अप नहीं थी। मॉडल ने चरण 80K से दोहराव-लूप कचरा उत्पन्न किया & प्रशिक्षण 85K और चरणों तक चला इससे पहले कि किसी ने नोटिस किया। 10+ दिनों का कम्प्यूट बर्बाद क्योंकि किसी ने आउटपुट नहीं पढ़ा।

हानि क्या छिपाती है

क्रॉस-एंट्रॉपी हानि मॉडल के अगले टोकन पर कितना आश्चर्यचकित होने का माप करती है। एक मॉडल जो region region region region उत्सर्जित करता है, वह अपनी खुद की आउटपुट से अप्रभावित दिखता है (इसने हर बार एक ही शब्द की भविष्यवाणी की)। संख्यात्मक हानि कम रह सकती है जबकि अर्थगत गुणवत्ता ढह जाती है।

v2 सुधार

sample_every = 100 स्टेप्स। 420 फ्री-फॉर्म टोकन उत्पन्न करें। कोहेरेंस-गेटेड अर्ली स्टॉपिंग बिग्राम विविधता, ट्रिग्राम विविधता, अंग्रेजी शब्द उपस्थिति, और कैरेक्टर विविधता (0-100 स्केल) पर हर सैंपल को स्कोर करती है। 5 लगातार सैंपल्स के 30 से नीचे स्कोर होने पर ऑटो-हाल्ट। v1 पर बैक-टेस्टेड: स्टेप 132K पर ट्रिगर होता, 3.8 दिन बचाता।

सैंपल्स पढ़ना वैकल्पिक नहीं है। सैंपल्स पढ़ना ही वह तरीका है जिससे हम जानते हैं कि हानि का कोई अर्थ है।

हानि बनाम सैंपल गुणवत्ता

v1 ने EMA loss 3.43 प्राप्त किया (random 9.04 से काफी नीचे) लेकिन 'region region region' उत्सर्जित किया। दो भागों में समझाएं: (a) LOSS numerically reasonable कैसे रह सकता है जबकि output repetition में collapse हो जाए? (b) v2 में कौन सा structural fix इसे catch करता है बिना हर sample को human द्वारा पढ़े?

ppl = exp(loss)

रूपांतरण

Cross-entropy loss nats में रिपोर्ट करता है। Perplexity प्रत्येक step पर model द्वारा consider किए गए equally-likely tokens की equivalent संख्या रिपोर्ट करता है। रूपांतरण: ppl = exp(loss).

8449-टोकन शब्दावली पर रैंडम: loss = ln(8449) = 9.04, ppl = 8449. परफेक्ट भविष्यवाणी याद करके: loss = 0, ppl = 1.

एक संदर्भ तालिका

loss	ppl	पढ़ना
9.04	8449	पूर्ण शब्दावली पर रैंडम
5.00	148	प्रारंभिक प्रशिक्षण, मूल संरचना
3.00	20	शब्दावली वितरण सीखना
2.00	7	ज्ञानवान लेकिन अस्पष्ट
1.00	2.7	बाधा-अनुसरण उभरना
0.70	2	पाठ्यपुस्तक एक-पंक्ति
0.30	1	तथ्यात्मक स्मरण, ज्यादातर याद किया हुआ
0.13	1	अलर्ट: याद किया हुआ उपस्ट्रिंग
0.00	1	पूर्ण स्मरण

प्रति-नमूना लॉस बनाम EMA लॉस

EMA लॉस (कई चरणों पर एक्सपोनेंशियल मूविंग एवरेज) समग्र ट्रेनिंग स्वास्थ्य को रिपोर्ट करता है। प्रति-नमूना लॉस एक विशिष्ट नमूने की गुणवत्ता को रिपोर्ट करता है। दोनों अलग हो जाते हैं: EMA 2.0 पर स्थिर रह सकता है जबकि व्यक्तिगत नमूने 0.13 से 4.0 तक कहीं भी पहुँच सकते हैं, यह इस बात पर निर्भर करता है कि बैंडिट ने कौन सा प्रॉम्प्ट चुना।

व्यक्तिगत नमूना लॉस पढ़ना ही वह तरीका है जिससे हम आउटलायर्स को पकड़ते हैं। EMA लॉस हमें यह नहीं बताता कि क्या एक नमूने ने repo-docs सबस्ट्रिंग को याद किया; प्रति-नमूना लॉस बताता है।

तीन लॉस मान पढ़ना

ANDREA-120M ने स्टेप 112,584-112,668 पर निकट उत्तराधिकार में तीन नमूने उत्पन्न किए। (a) लॉस 0.30 ppl ?; (b) लॉस 0.74 ppl ?; (c) लॉस 1.94 ppl ?। प्रत्येक ppl की गणना करें, फिर प्रत्येक का प्रतिनिधित्व करने वाले गुणवत्ता स्तर को बताएं (memorized / textbook / constraint / imprecise)।

ऑडिट विंडो पर चलना

एक 700-चरणीय विंडो

चरण 111,996 और 112,668 के बीच, ANDREA-120M ने छह असंबंधित ज्ञान डोमेन में फैले नमूने उत्पन्न किए। प्रत्येक एक हानि स्तर में आता है:

Sample Audit Loss Tiers

स्तर 1: तथ्यात्मक स्मरण (loss 0.30, ppl 1)

चरण 112,584, जीवविज्ञान

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

दो सही तथ्य। कैरोलिना पैराकीट को 1939 में विलुप्त घोषित किया गया; ब्लैक स्पाइडर मंकी विद्यमान है। ppl 1 का अर्थ है कि मॉडल ने हर चरण में सही टोकन चुना। बाहरी ग्रेडिंग: 9.5/10।

स्तर 2: पाठ्यपुस्तक एक-लाइनर (loss 0.74, ppl 2)

चरण 112,668, सिग्नल प्रोसेसिंग

> [Fourier transform prompt]

> < फूरियर ट्रांसफॉर्म सिग्नलों को आवृत्ति घटकों में विघटित करता है, जिससे सिग्नल की विशेषताओं का विश्लेषण और आवृत्ति डोमेन में फिल्टरिंग संभव हो जाती है।

एक पाठ्यपुस्तक एक-वाक्य परिभाषा। समय-से-आवृत्ति विघटन सही अनुप्रयोग शब्दों के साथ। बाहरी ग्रेडिंग: 9.5/10।

स्तर 3: बाधा अनुसरण (हानि 1.05, ppl 3)

चरण 112,248, कविता

> वर्षा के बारे में एक हाइकु लिखें जिसमें तीन शब्द 'r' से शुरू हों।

> < वर्षा की लयबद्ध धुन, खिड़की पर धाराएँ, जीवन की पीड़ा से विश्राम।

तीन 'r' शब्द (वर्षा, धाराएँ, विश्राम), तीन पंक्तियाँ, हाइकु संरचना संरक्षित, वर्षा के इर्द-गिर्द अर्थगत सामंजस्य। ppl 3 = मॉडल ने प्रत्येक चरण पर कुछ उम्मीदवारों पर विचार किया लेकिन बाधा के अंदर रहा।

स्तर 4: जानकार लेकिन अस्पष्ट (हानि 1.94, ppl 7)

चरण 112,500, पायथन उपकरण

> मैं एक पायथन प्रोजेक्ट में पुराने पैकेज कैसे ढूंढूं?

> < pip list --outdated का उपयोग करके अपने प्रोजेक्ट मैनेजमेंट में pip पैकेज सूची देखें, या pyenv के माध्यम से अधिक स्वचालित पैकेज प्राप्त करने चाहिए।

सही कमांड (pip list --outdated) ट्रेनिंग डेटा से उभरता है। वाक्यांश की प्रवाहिता अभी विकसित हो रही है। मामूली भ्रम: pyenv पायथन संस्करणों का प्रबंधन करता है, पैकेजों का नहीं। ppl 7 का मतलब है कि मॉडल ने प्रत्येक चरण पर ~7 संभावित निरंतरताओं पर विचार किया; सभी सटीक रूप से सही नहीं थे।

स्तर 5: अलर्ट, याद की गई सबस्ट्रिंग (हानि 0.13, ppl 1)

चरण 112,080, असामान्य

हानि 0.13 पाठ्यपुस्तक स्तर के नीचे बैठती है। मॉडल इस नमूने पर बहुत आत्मविश्वासपूर्ण है। निदान: याद की गई repo-docs सबस्ट्रिंग, चैट सीखा नहीं गया। बैंडिट ने एक ज़ॉम्बी repo-docstrings आर्म खींचा जो पूर्व रन स्थिति से वजन 1.546 ले जा रहा था, & नमूना ने प्रशिक्षण डेटा का शब्दशः टुकड़ा पुन: उत्पन्न किया।

असामान्य रूप से कम हानि एक याद करने की चेतावनी है, गुणवत्ता संकेत नहीं। सब-0.20 का अर्थ है: जांचें कि मॉडल उत्पन्न कर रहा है या कॉपी कर रहा है।

700 चरणों में छह डोमेन

जीवविज्ञान (पाराकीट), सिग्नल प्रोसेसिंग (फूरियर), कविता (हाइकू), पायथन टूल्स (pip), संवादात्मक संवाद, ऑप्स संवाद। 700 चरणों के अंदर छह असंबंधित डोमेन बताते हैं कि बैंडिट विविध कार्य कर रहा है, एक स्रोत पर अटका नहीं है। डोमेन चौड़ाई एक गुणवत्ता मेट्रिक है।

तीन नमूनों का निदान

तीन नए नमूने आपके ऑडिट विंडो में आ जाते हैं। (a) loss 0.40, उत्पन्न करता है 'photosynthesis converts sunlight into chemical energy in chloroplasts'। (b) loss 0.10, एक पायथन डॉकस्ट्रिंग का शब्दशः टुकड़ा उत्पन्न करता है। (c) loss 1.30, एक सोनेट उत्पन्न करता है जो ABAB राइम स्कीम का पालन करता है लेकिन एक थोड़ी जबरदस्ती वाली राइम के साथ। प्रत्येक के लिए, गुणवत्ता टियर का नाम बताएं & अपनी क्रिया बताएं: ACCEPT (वास्तविक सीखना), INVESTIGATE (असामान्यता संकेत), या ACCEPT_WITH_NOTE (अपूर्ण लेकिन बैंडिट स्वस्थ)।

बाहरी आँखों को सैंपल क्यों सबमिट करें

बाहरी ग्रेडिंग ने क्या पकड़ा

आंतरिक सैंपल ऑडिट ने हमें बताया कि मॉडल जैविकी, सिग्नल प्रोसेसिंग, कविता, और पायथन की मांग पर उत्पादन कर रहा था। बाहरी चैट-गुणवत्ता ग्रेडिंग ने उन सैंपलों को '9.5/10' और 'इस स्केल पर ज्ञान कार्यों में अपने वजन से ऊपर मुक्का मारते हुए' रेट किया।

आंतरिक समीक्षा के उत्तर: क्या बैंडिट ने विविध कार्य किया? बाहरी समीक्षा के उत्तर: क्या कोई मानव पाठक इन आउटपुट को अच्छा रेट करेगा?

दोनों क्यों महत्वपूर्ण हैं

आंतरिक ऑडिट संरचनात्मक विफलों को पकड़ता है: दोहराव पतन, स्मृति स्पाइक्स, कम-विविधता ज़ॉम्बी आर्म्स। लॉस टियर, n-gram विविधता, और डोमेन चौड़ाई सभी प्रॉक्सी से देखने योग्य हैं।

बाहरी ग्रेडिंग अर्थपूर्ण गुणवत्ता विफलताओं को पकड़ती है: आत्मविश्वास से गलत तथ्य, असहज वाक्यांश, छूटी हुई बारीकी। इनमें से कोई भी हानि संख्याओं में दिखाई नहीं देता।

कार्यप्रणाली

ANDREA का प्रशिक्षण डैशबोर्ड training.ai.unturf.com/dashboard जानबूझकर सार्वजनिक और केवल-पढ़ने योग्य है। कोई भी व्यक्ति .loss.json, .samples.json, और बैंडिट स्थिति को वास्तविक समय में जाँच सकता है। बाहरी समीक्षकों को ऑपरेटर के पास उपलब्ध समान डेटा तक पहुँच थी।

चरण 112,584 पर 200,000 में से लिए गए नमूनों पर एक स्वतंत्र पाठक से 9.5/10, पूर्ण उत्पत्ति के साथ: वह परिणाम पुनरुत्पादनीय, ऑडिट करने योग्य, और धोखाधड़ी-प्रूफ है। वही नमूने, वही हानि मान, वही बैंडिट स्थिति किसी भी व्यक्ति को दिखाई देती है जो देखता है।

दो स्वतंत्र संकेत

आंतरिक: कम हानि + उच्च विविधता + बहु-डोमेन कवरेज = बैंडिट स्वस्थ।

बाहरी: स्वतंत्र समीक्षक से 9.5/10 = आउटपुट रेटिंग अच्छी।

दोनों संरेखित: प्रशिक्षण तथ्यात्मक स्मरण, बाधा अनुसरण, एवं बहु-अनुच्छेद सुसंगति पर अभिसरित हो रहा है। यदि वे विचलित हों (कम हानि लेकिन बाहरी रेटिंग 3/10), तो हमें मेट्रिक-गेमिंग समस्या की जांच करनी होगी।

दो संकेत, एक निदान

कल्पना कीजिए ANDREA सैंपल्स को चरण 100K एवं चरण 150K पर बाहरी ग्रेडिंग मिलती है। (a) चरण 100K: आंतरिक EMA हानि 2.5, n-gram विविधता 70/100, बाहरी रेटिंग 3/10। आंतरिक एवं बाहरी के बीच का अंतर क्या सुझाता है? (b) चरण 150K: आंतरिक EMA हानि 2.0, विविधता 85/100, बाहरी 9/10। आंतरिक एवं बाहरी का संरेखण क्या सुझाता है? प्रत्येक परिदृश्य के लिए एक वाक्य दें।

प्रत्येक ऑडिट विंडो के लिए पांच चरण

एक ऑडिट, पांच जांचें

1. लॉस टियर पढ़ें। ppl = exp(loss)। इसे पांच-स्तरीय तालिका से मिलाएं।

2. 0.20 से कम आउटलायर्स की जांच करें। मेमोराइजेशन संकेत। गुणवत्ता परिणाम मानने से पहले जांच करें।

3. वास्तविक नमूना पाठ पढ़ें। लॉस संख्याएं आपको आउटपुट क्या कहता है, यह नहीं बता सकतीं। इसे पढ़ें।

4. डोमेन की चौड़ाई गिनें। 700 स्टेप्स में छह असंबंधित डोमेन = बैंडिट स्वस्थ। एक डोमेन 7 बार दोहराया गया = बैंडिट अटका हुआ।

5. बाहरी ग्रेडिंग से तुलना करें। यदि आपका सैंपल आपको अच्छा लगता है, तो रन के बाहर किसी से इसे पढ़ने को कहें। उनका असहमत होना जानकारी है।

यह क्या से जुड़ता है

- Activity 22 (grow_a_language_model_checkpoints). sample_every cadence चेकपॉइंट cadence के साथ संरेखित; दोनों हर 100 स्टेप्स पर फायर करते हैं।

- Activity 21 (coherence-gated early stopping). विविधता मेट्रिक्स जो सैंपल्स के ढहने पर ट्रेनिंग को स्वचालित रूप से रोक देते हैं।

- Activity 24 (grow_a_language_model_microgpt_to_andrea). v1 collapse, v2.5 contamination, v3 polish सभी पकड़े गए (या पकड़े जा सकते थे) सैंपल ऑडिट द्वारा।

एक सत्य

लॉस एक संख्या है। सैंपल पढ़ना ही हमें बताता है कि यह संख्या क्या अर्थ रखती है।

आप क्या देखेंगे?

पांच ऑडिट चेक्स (लॉस टियर, सब-0.20 आउटलायर्स, सैंपल टेक्स्ट, डोमेन ब्रेड्थ, एक्सटर्नल ग्रेडिंग) में से, यदि आप अपना खुद का मॉडल ट्रेन करते हैं तो आप किसे सबसे ऊँची प्राथमिकता देंगे? एक चुनें और 2-3 वाक्यों में तर्क दें।