un — نمو نموذج لغة: تدقيق عينة & تقييم خارجي [DESCRIPTION /]

un

ضيف

1 / ?

درس الإصدار v1: الخسارة تبدو جيدة، الإخراج قمامة

قصة تحذيرية

وصل ANDREA-120M v1 إلى خسارة EMA 3.43 في الخطوة 110K، أقل بكثير من الصدفة العشوائية (ln(8449) = 9.04). بدا الرقم محترمًا. العينات لم تكن كذلك.

الخطوة 80K: منطقة منطقة منطقة منطقة منطقة منطقة منطقة
الخطوة 110K: ''''' ''''' '' ''' '' ''' '''؟' ''' ' '' '' '
الخطوة 140K: ألعاب، ألعاب، ألعاب، ألعاب، ألعاب، ألعاب
الخطوة 165K: بودي بودي بودي بودي بودي بودي بودي بودي

لم يكن للإصدار v1 أي مراقبة للعينات متصلة. أنتج النموذج قمامة حلقة تكرار من الخطوة 80K فصاعدًا، واستمر التدريب لـ85K خطوة إضافية قبل أن يلاحظ أحدهم. 10+ أيام من الحوسبة ضاعت لأن أحدًا لم يقرأ الإخراج.

ما الذي يخفيه الخسارة

تقيس خسارة الإنتروبيا العابرة مدى الدهشة التي يشعر بها النموذج تجاه الرمز التالي. نموذج يصدر region region region region يبدو غير متفاجئ بناتجه الخاص (لأنه توقع نفس الكلمة في كل مرة). يمكن أن تبقى الخسارة الرقمية منخفضة بينما تنهار الجودة الدلالية.

إصلاح الإصدار v2

sample_every = 100 خطوة. توليد 420 رمزًا حرًا الشكل. توقف مبكر يعتمد على التماسك يقيم كل عينة على تنوع الثنائيات، تنوع الثلاثيات، وجود كلمات إنجليزية، & تنوع الحروف (مقياس 0-100). إيقاف تلقائي بعد 5 عينات متتالية أقل من 30. اختبار رجعي على v1: كان سيُفعّل في الخطوة 132K، مما يوفر 3.8 أيام.

قراءة العينات ليست اختيارية. قراءة العينات هي الطريقة التي نعرف بها أن الخسارة تعني شيئًا.

الخسارة مقابل جودة العينة

وصلت v1 إلى خسارة EMA 3.43 (أقل بكثير من العشوائي 9.04) لكنها أصدرت 'region region region'. شرح في جزئين: (أ) كيف يمكن أن تبقى الخسارة معقولة عدديًا بينما ينهار الإخراج إلى التكرار؟ (ب) ما هو الإصلاح الهيكلي في v2 الذي يكتشف هذا دون الاعتماد على قراءة إنسان لكل عينة؟

ppl = exp(loss)

التحويل

تقرير خسارة الإنتروبيا العابرة بالنات. الارتباكية تقرر العدد المكافئ من الرموز ذات الاحتمالية المتساوية التي يعتبرها النموذج في كل خطوة. التحويل: ppl = exp(loss).

عشوائي على مفردات 8449 رمز: الخسارة = ln(8449) = 9.04، ppl = 8449. حفظ مثالي للتنبؤ: الخسارة = 0، ppl = 1.

جدول مرجعي

الخسارة	ppl	القراءة
9.04	8449	عشوائي على المفردات الكاملة
5.00	148	التدريب المبكر، الهيكل الأساسي
3.00	20	تعلم توزيع المفردات
2.00	7	مطلع ولكنه غير دقيق
1.00	2.7	ظهور اتباع القيود
0.70	2	جملة واحدة من الكتاب المدرسي
0.30	1	استرجاع واقعي، معظمها محفوظ
0.13	1	تنبيه: سلسلة نص محفوظة
0.00	1	حفظ تام

خسارة لكل عينة مقابل خسارة EMA

خسارة EMA (متوسط متحرك أسي على مدار العديد من الخطوات) تقرير عن صحة التدريب العامة. خسارة لكل عينة تقرير عن جودة عينة محددة واحدة. الاثنان يختلفان: EMA قد يبقى عند 2.0 بينما العينات الفردية تسقط في أي مكان من 0.13 إلى 4.0 حسب الـ prompt الذي اختاره البانديت.

قراءة خسارة العينة الفردية هي كيفية التقاط الشذوذ. خسارة EMA لا تخبرنا شيئًا عن ما إذا كانت عينة واحدة قد حفظت جزءًا من repo-docs؛ خسارة لكل عينة تفعل ذلك.

قراءة ثلاث قيم خسارة

أنتجت ANDREA-120M ثلاث عينات متتالية تقريبًا في الخطوة 112,584-112,668. (أ) خسارة 0.30 ppl ؟؛ (ب) خسارة 0.74 ppl ؟؛ (ج) خسارة 1.94 ppl ؟. احسب كل ppl، ثم حدد مستوى الجودة الذي يمثله كل (memorized / textbook / constraint / imprecise).

التجول في نافذة التدقيق

نافذة 700 خطوة

بين الخطوة 111,996 و112,668، أنتجت ANDREA-120M عينات تمتد عبر ستة مجالات معرفية غير مترابطة. كل منها يقع في مستوى خسارة:

Sample Audit Loss Tiers

المستوى 1: الاستذكار الواقعي (loss 0.30, ppl 1)

step 112,584, biology

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

حقيقتان صحيحتان. Carolina parakeet أُعلن انقراضها في 1939؛ black spider monkey موجود. ppl 1 يعني أن النموذج اختار الرمز الصحيح في كل خطوة. التقييم الخارجي: 9.5/10.

المستوى 2: جملة واحدة من كتاب دراسي (الخسارة 0.74، ppl 2)

الخطوة 112,668، معالجة الإشارات

> [Fourier transform prompt]

> < تحلل تحويل فورييه الإشارات إلى مكونات ترددية، مما يسمح بتحليل خصائص الإشارة وتصفيتها في مجال التردد.

تعريف جملة واحدة من كتاب دراسي. تحليل زمني-ترددي مع مصطلحات التطبيق الصحيحة. التقييم الخارجي: 9.5/10.

المستوى 3: اتباع القيود (الخسارة 1.05، ppl 3)

الخطوة 112,248، الشعر

> اكتب هائيكو عن المطر باستخدام ثلاث كلمات تبدأ بحرف 'r'.

> < Rain's rhythmic refrain, Rivulets on the window, Respite from life's pain.

ثلاث كلمات تبدأ بحرف 'r' (Rain، Rivulets، Respite)، ثلاثة أسطر، هيكل الهائيكو محفوظ، تماسك دلالي حول المطر. ppl 3 = النموذج اعتبر بعض المرشحين في كل خطوة لكنه بقي داخل القيد.

المستوى 4: مطلع ولكن غير دقيق (خسارة 1.94، ppl 7)

الخطوة 112,500، أدوات python

> كيف أجد الحزم القديمة في مشروع Python؟

> < استخدم pip list --outdated لترى قائمة حزم pip في إدارة مشروعك، أو يجب أن تكون عبر pyenv للحصول على حزم أكثر تلقائية.

أمر النواة الصحيح (pip list --outdated) يظهر من بيانات التدريب. طلاقة الصياغة لا تزال تتطور. خلط طفيف: pyenv يدير إصدارات Python، وليس الحزم. ppl 7 يعني أن النموذج اعتبر ~7 استمرارات محتملة في كل خطوة؛ ليست كلها دقيقة تمامًا.

الطبقة 5: تنبيه، جزء فرعي محفوظ (الخسارة 0.13، ppl 1)

الخطوة 112,080، شاذة

الخسارة 0.13 تقع أسفل طبقة الكتاب المدرسي. النموذج واثق جداً من هذا العينة. التشخيص: جزء فرعي محفوظ من repo-docs، ليس دردشة مُتَعَلَّمَة. الـbandit سحب ذراع repo-docstrings زومبي يحمل وزن 1.546 من حالة تشغيل سابقة، & العينة أعاد إنتاج قطعة حرفية من بيانات التدريب.

الخسارة المنخفضة بشكل شاذ هي تحذير من الحفظ، وليست إشارة جودة. أقل من 0.20 يعني: تحقق مما إذا كان النموذج يولد أو ينسخ.

ست مجالات في 700 خطوة

البيولوجيا (ببغاء)، معالجة الإشارات (فورييه)، الشعر (هايكو)، أدوات بايثون (pip)، حوار محادثي، حوار عمليات. ست مجالات غير مترابطة ضمن 700 خطوة يخبرنا بأن اللص يقوم بعمل متنوع، لا عالق في مصدر واحد. عرض المجالات هو مقياس جودة.

تشخيص ثلاث عينات

ثلاث عينات جديدة تصل إلى نافذة التدقيق الخاصة بك. (a) خسارة 0.40، يولد 'photosynthesis converts sunlight into chemical energy in chloroplasts'. (b) خسارة 0.10، يولد مقتطفًا حرفيًا من وثيقة بايثون. (c) خسارة 1.30، يولد سوناتة تتبع مخطط قافية ABAB لكن مع قافية واحدة مضغوطة قليلاً. لكل واحدة، سمِّ **مستوى الجودة** وحدد إجراءك: **ACCEPT** (تعلم حقيقي)، **INVESTIGATE** (إشارة شذوذ)، أو **ACCEPT_WITH_NOTE** (غير مثالي لكن اللص سليم).

لماذا نرسل العينات إلى عيون خارجية

ما الذي قبضت عليه الدرجة الخارجية

أخبرتنا مراجعة العينات الداخلية أن النموذج ينتج بيولوجيا، معالجة إشارات، شعر، وبايثون عند الطلب. قيّمت الدرجة الخارجية لجودة الدردشة تلك العينات '9.5/10' و'تتفوق على وزنها في مهام المعرفة في هذا الحجم'.

إجابات المراجعة الداخلية: هل قام البانديت بعمل متنوع؟ إجابات المراجعة الخارجية: هل سيقيّم قارئ بشري هذه المخرجات كجيدة؟

لماذا يهم كلاهما

تكتشف المراجعة الداخلية الفشلات الهيكلية: انهيار التكرار، ارتفاعات الحفظ، أذرع الزومبي منخفضة التنوع. مستويات الخسارة، تنوع n-gram، وعرض المجال كلها قابلة للملاحظة من الوكيل.

التقييم الخارجي يكتشف فشل الجودة الدلالية: حقائق خاطئة بثقة، صياغة غير سلسة، تفاصيل دقيقة مفقودة. لا تظهر أي من هذه في أرقام الخسارة.

المنهجية

لوحة تحكم تدريب ANDREA على training.ai.unturf.com/dashboard عامة وعرض فقط عن قصد. يمكن لأي شخص استطلاع .loss.json، .samples.json، وحالة البانديت في الوقت الفعلي. كان للمراجعين الخارجيين الوصول إلى نفس البيانات التي كان لدى المشغل.

9.5/10 من قارئ مستقل، على عينات مسحوبة في الخطوة 112,584 من 200,000، مع سجل كامل للمصدر: هذا النتيجة قابلة للتكرار، قابلة للتدقيق، وغير قابلة للتلاعب. نفس العينات، نفس قيم الخسارة، نفس حالة البانديت مرئية لأي شخص ينظر.

إشارتان مستقلتان

داخلي: خسارة منخفضة + تنوع عالي + تغطية متعددة المجالات = بنديت صحي.

خارجي: 9.5/10 من مراجع مستقل = معدلات الإخراج جيدة.

كلاهما يتوافق: التدريب يتقارب نحو الاستذكار الواقعي، اتباع القيود، والتماسك متعدد الفقرات. إذا انفصلا (خسارة منخفضة لكن التقييم الخارجي 3/10)، لكان لدينا مشكلة في لعب المقاييس تحتاج إلى التحقيق.

إشارتان، تشخيص واحد

تخيل أن عينات ANDREA تحصل على تقييم خارجي في الخطوة 100K والخطوة 150K. (أ) الخطوة 100K: خسارة EMA داخلية 2.5، تنوع n-gram 70/100، تقييم خارجي 3/10. ماذا يشير الفجوة بين الداخلي والخارجي؟ (ب) الخطوة 150K: خسارة EMA داخلية 2.0، تنوع 85/100، خارجي 9/10. ماذا يشير توافق الداخلي والخارجي؟ أعطِ جملة واحدة لكل سيناريو.

خمس خطوات لكل نافذة تدقيق

تدقيق واحد، خمس فحوصات

1. اقرأ مستوى الخسارة. ppl = exp(loss). قارن مع جدول الخمس مستويات.

2. تحقق من الشذوذ أقل من 0.20. إشارة حفظ في الذاكرة. تحقق قبل معاملتها كناتج جودة.

3. اقرأ نص العينة الفعلي. أرقام الخسارة لا تخبرك بما يقوله الإخراج. اقرأه.

4. عدّ تنوع المجالات. ست مجالات غير مترابطة في 700 خطوة = بنديت صحيح. مجال واحد مكرر 7 مرات = بنديت عالق.

5. قارن مع التقييم الخارجي. إذا بدا عينتك جيدة بالنسبة لك، اطلب من شخص خارج التشغيل قراءتها. اختلافهم معلومات.

ما يرتبط به هذا

- النشاط 22 (grow_a_language_model_checkpoints). إيقاع sample_every يتوافق مع إيقاع النقاط التحفظية؛ كلاهما يعمل كل 100 خطوة.

- النشاط 21 (coherence-gated early stopping). مقاييس التنوع التي توقف التدريب تلقائيًا عند انهيار العينات.

- النشاط 24 (grow_a_language_model_microgpt_to_andrea). انهيار v1، تلوث v2.5، تلميع v3 كلها تم اكتشافها (أو كان يمكن اكتشافها) بواسطة تدقيق العينات.

الحقيقة الواحدة

الخسارة هي رقم. قراءة العينات هي كيف نعرف ما يعنيه الرقم.

ماذا ستشاهد؟

من بين الخمس فحوصات التدقيق (درجة الخسارة، الشذوذات دون 0.20، نص العينة، اتساع المجال، التقييم الخارجي)، أي واحدة ستضع أعلى أولوية عليها إذا قمت بتدريب نموذجك الخاص؟ اختر واحدة مع 2-3 جمل من التبرير.