un — نمو نموذج لغة: التحكم في النرد القائم على المراحل [DESCRIPTION /]

un

ضيف

1 / ?

مشكلة الالتصاق

لصق يستمر في الفوز

UCB1 العادي يعيد حساب النتائج في كل خطوة. يختار ذراعًا واحدًا. يسحبه. يحدث n_k & mean_reward(k). يكرر. في تدريب طويل مع العديد من المصادر، يمكن لـذراع واحد أن يجمع سلسلة من المكافآت العالية، يرفع متوسطها، & يصبح من المستحيل تقريبًا التغلب عليه. الذراعات الأخرى تتوقف عند n_k منخفض مع متوسطات قديمة. الالتصاق.

الالتصاق يؤذي ANDREA بطريقتين:

1. انهيار التنوع. النموذج الذي يتدرب 90% من الخطوات على مصدر واحد يتعلم علامات الأسلوب الخاصة بذلك المصدر. عينات التوليد تنحرف نحو أنماط متكررة تطابق المصدر المهيمن.

2. استكشاف قديم. الذراعات ذات المتوسطات القديمة لا تستطيع التعافي. ذراع انخفض متوسطها مبكراً يبقى عالقاً عند ذلك المتوسط حتى لو نمى النموذج الآن بما يكفي من السعة لاستخراج المكافأة منه.

مرحلة تشتري وقتاً

الحل: الاحتفاظ بمجموعة ثابتة من ذراعات التركيز لمرحلة (خطوات متعددة) قبل إعادة التقييم. مرحلة من 14 خطوة تعني 14 مروراً أمامياً يصيب نفس ذراعات التركيز. تثبت مكافآت المتوسط. الضوضاء العشوائية تُحسب متوسطها. ثم يعيد البانديت الرمي.

طول المرحلة المتغير

تختار أندريا طول الطور عشوائيًا بالتساوي من {7، 14، 21، 28، 42} خطوة عند كل حدود الطور. خمس قيم، عشوائي موحد. الطور القصير (7) يتفاعل بسرعة مع الاختيارات السيئة؛ الطور الطويل (42) يسمح لمجموعات التركيز المستقرة باستغلالها بالكامل. السقف يحد من الضرر: على الأكثر 42 خطوة على تكوين تركيز سيء قبل إعادة الرمي الإجبارية.

Dice Phase Timeline

إحصائيات طول الطور

تختار أندريا طول الطور عشوائيًا بالتساوي من {7، 14، 21، 28، 42}. احسب (أ) الطول المتوقع (المتوسط) للطور، (ب) أقصى طول للطور، (ج) على مدى 1,000 طور، الخطوات الإجمالية المتوقعة. أظهر حساباتك الحسابية.

1d3 (عينين) & 1d4 (ثلاث عيون)

تدوين النرد

تدوين ألعاب الطاولة: NdM يعني رمي N نرد بـ M وجوه لكل منها. 1d3 يرمي نردًا بـ 3 وجوه، يُرجع قيمة في {1, 2, 3}. 1d4 يرمي نردًا بـ 4 وجوه، يُرجع {1, 2, 3, 4}. ANDREA يسمح أيضًا بنتيجة 0 باتفاقية: رمية 0 تعني مرحلة عشوائية كاملة (لا تركيز أذرع UCB).

تكوينات عينين مقابل ثلاث عيون

تكوين تدريب ANDREA يختار واحدًا من وضعي نردين:

تكوين 2 عين (1d3). عدد أذرع التركيز الممكن: {0, 1, 2, 3}. النتيجة 0 محجوزة للمرحلة العشوائية.

تكوين 3 عيون (1d4). عدد أذرع التركيز الممكن: {0, 1, 2, 3, 4}. المجموعات الأكبر تسمح بمراحل أكثر تركيزًا.

عشوائي أولاً، UCB ثانيًا

مهما كانت رميات النرد، تملأ ANDREA فتحات التركيز في مرحلتين:

1. الأذرع العشوائية أولاً. اختر جزءًا من فتحات التركيز بشكل عشوائي موحد من جميع الأذرع المتاحة. هذا يفرض تنوعًا تركيبيًا في كل مرحلة، بغض النظر عن ترتيب UCB.

2. يملأ UCB الفتحات المتبقية. احسب درجات UCB1 للأذرع التي لم يتم اختيارها بعد. خذ أعلى الترتيب من الأذرع المتبقية حتى يمتلئ عدد فتحات التركيز.

الاختيار العشوائي أولاً مهم. إذا اختار UCB أولاً، فإن قائد السلسلة سيحتل دائماً فتحة. مع العشوائي أولاً، حتى أفضل ذراع UCB يمكن أن يجلس خارج مرحلة. يبقى التنوع مضموناً.

مراحل عشوائية نقية

عندما يرمي النرد 0، يأتي مجموعة التركيز بأكملها من الاختيارات العشوائية. لا يساهم UCB بشيء. حوالي 25% من المراحل (1d4) أو 33% من المراحل (1d3) تهبط هنا. تجبر المراحل العشوائية النقية اللص على تجديد عينته من الأذرع ذات السحب المنخفض، مما يحافظ على تقديرات mean_reward صادقة عبر مجموعة الأذرع بأكملها.

احتمالات نتائج النرد

تحت نرد 1d3 (تكوين 2-عين) مع النتائج الممكنة {0, 1, 2, 3} جميعها متساوية الاحتمال، احسب (أ) احتمالية مرحلة عشوائية كاملة (dice=0)، (ب) احتمالية وجود ذراع UCB واحد على الأقل (dice >= 1)، (ج) على مدى 100 مرحلة، العدد المتوقع للمراحل العشوائية الكاملة. ثم تحت 1d4 (تكوين 3-عين)، أعطِ (د) احتمالية مرحلة عشوائية كاملة. أظهر تفكيرك.

حدّ الحدّ الأقصى للضرر

مرحلة سيئة تكلّف حتى 42 خطوة

افترض أن ترتيب UCB يختار ذراع تركيز متوسطها الحقيقي أقل بكثير من متوسطها المُلاحظ. المرحلة تقفل هذا الذراع. يبقى المكافأة منخفضًا طوال المرحلة. كم من الوقت حتى يتمكن اللصّ من التصحيح؟

الحد الأقصى لطول الطور: 42 خطوة. بعد 42 خطوة، ينتهي الطور، يتم إعادة رمي النرد، إعادة ترتيب أذرع التركيز. الاختيار السيء لا يمكن أن يستمر أكثر من 42 تمريرة أمامية.

لماذا 42 (وليس 100، ولا 1000)

الأطوار الطويلة تسمح لتقديرات mean_reward بالاستقرار. نظرية إحصائية: تباين متوسط n عينات يتناقص كـ 1/n. الانتقال من 7 عينات إلى 42 عينة يعطي 6 أضعاف العينات، sqrt(6) تقريباً 2.45x خطأ معياري أضيق. بعد 42 عينة، يقع mean_reward ضمن نطاق تقريبي +/-15% من قيمته الحقيقية (حسب تباين المكافأة).

بعد 42 عينة، يتناقص الربح: 100 عينة مقابل 42 عينة = 2.4x أكثر، sqrt(2.4) تقريباً 1.55x خطأ معياري أضيق. الفائدة الحدية تنخفض بينما تكلفة الاقفال السيء تتزايد. 42 خطوة توازن بين الاثنين.

التنوع مقابل التقارب

المراحل القصيرة (7 خطوات): تقديرات المكافآت تبقى صاخبة، لكن الاختيارات السيئة تكلف قليلاً. المراحل الطويلة (42 خطوة): التقديرات دقيقة، لكن الاختيارات السيئة تكلف أكثر. ANDREA يمزج أطوال المراحل بشكل متساوٍ حتى يظهر كلا النظامين في كل جلسة تدريب.

تكلفة إعادة بناء Btok

يؤدي كل حد مرحلة إلى إعادة بناء ملف btok للذراعين المركزيتين. تعمل إعادة بناء Btok في خيط خلفي؛ يقوم CUDA بإعادة التحميل الساخن عند تغيير mtime. تستغرق إعادة البناء ثوانٍ؛ يجب أن تستمر المراحل لفترة كافية حتى تبقى تكلفة إعادة البناء صغيرة. 42 خطوة بسرعة تدريب ANDREA-120M تتجاوز بسهولة وقت إعادة البناء.

التفكير حول السقف

أكملت ANDREA جلسة تدريب مدتها 1,000 خطوة. اختار البانديت ذراعًا مركزيًا سيئًا في الخطوة 800. بدون سقف 42 خطوة، يمكن أن يستمر ذلك الذراع السيئ لفترة غير محدودة. مع سقف 42 خطوة، ما هو عدد الخطوات المهدرة في أسوأ حالة من الخطوة 800؟ ثم شرح في جملتين: (أ) لماذا يكون سقف أطول (مثل 200 خطوة) أسوأ، و(ب) لماذا يكون سقف أقصر (مثل 7 خطوات دائمًا) أسوأ أيضًا.

القادم بعد ذلك

ما لديك

التحكم في النرد القائم على المراحل يلف UCB1 في ثلاث قواعد وقائية: طول مرحلة متغير (7-42)، أذرع عشوائية أولاً، مراحل عشوائية مدفوعة بالنرد (25-33% عشوائية نقية). سقف الـ42 خطوة يحد من الضرر؛ المراحل العشوائية تمنع الإغلاق؛ الأطوال المتغيرة تخلط سرعة الرد مع استقرار التقدير.

ما تبقى

من أين يأتي إشارة المكافأة التي تغذي UCB بالفعل؟ النشاط 78 (نسبة المكافأة) يظهر كيف يبلغ CUDA عن الخسارة لكل مصدر كل خطوة، كيف يتتبع EMA لكل مصدر المكافأة، & لماذا تضاعف ANDREA المكافآت الخام 1000x قبل تغذية UCB1.

الأرضيات وعقوبات العصر (نشاط 79) تضيف طبقة إضافية من القواعد الوقائية فوق إخراج اللص، مما يضمن عدم جوع المصادر الصغيرة وعدم تكرار المصادر الكبيرة للحفظ عن ظهر قلب.

المرجع

ورقة ANDREA البيضاء، القسم 3.2.