الانتباه بالإضافة إلى MLP، متكرر
الطبقتان الفرعيتان
تحتوي كتلة محول على طبقتين فرعيتين بالضبط، تعمل كل منهما على تسلسل رموز بشكل [batch, seq_len, d_model]:
[END OF OUTPUT]
1. طبقة الاهتمام متعدد الرؤوس. الرموز تنظر إلى بعضها البعض. النشاط 68 غطى هذا بالتفصيل. شكل الإخراج يطابق شكل الإدخال.
2. طبقة MLP التقديمية الأمامية. كل رمز يتحول بشكل مستقل عبر perceptron ذو طبقتين. لا يوجد تدفق معلومات بين الرموز. شكل الإخراج يطابق شكل الإدخال.
كلا الطبقتين الفرعيتين تحافظان على الشكل [batch, seq_len, d_model]. هذا الحفاظ يسمح بتكديس الكتل: إخراج الطبقة N يغذي إدخال الطبقة N+1 دون حيل في الأشكال.
ما يساهم به كل طبقة فرعية
الاهتمام ينقل المعلومات عبر المواضع: يمكن لرمز في الموضع 17 سحب معلومات من المواضع 1 إلى 16. الـMLP تحول المعلومات داخل كل موضع: تمثيل الرمز يُعاد تشكيله عبر دوال غير خطية مُتَعَلَّمَة، لكنه لا يرى جيرانه أبداً.
ترتيب الكتل يتناوب بين هاتين العمليتين. انتباه الطبقة 1 يمزج المواقع. MLP الطبقة 1 يعيد تشكيل لكل موقع. انتباه الطبقة 2 يمزج مرة أخرى، الآن فوق التمثيلات المعاد تشكيلها. هذا التناوب يزيد من القوة التعبيرية مع العمق.
كومة ANDREA
| Variant | n_layer | n_head | d_model | mlp_dim |
|---|---|---|---|---|
| ANDREA-12M | 6 | 12 | 384 | 1536 |
| ANDREA-120M | 12 | 12 | 768 | 3072 |
| ANDREA-480M | 16 | 24 | 1536 | 6144 |
لاحظ mlp_dim = 4 × d_model عبر العائلة. هذا النسبة يحافظ عليها في معظم الـ transformers الحديثة تقريبًا. القسم 3 يشرح السبب.
تسمية الطبقات الفرعية
لماذا تُهمّ الروابط المتخطية
نمط المتبقي
كل طبقة فرعية تلف حسابها في رابطة متبقية. الإخراج يضيف الإدخال مرة أخرى:
x = x + Attention(LayerNorm(x)) # طبقة الاهتمام الفرعية
x = x + MLP(LayerNorm(x)) # طبقة فرعية MLP
داخل كل طبقة فرعية، الدالة Attention(...) أو MLP(...) تنتج دلتا. الكتلة لا تحل محل الإدخال؛ بل تضيف تصحيحًا متعلمًا.
لماذا هذا مهم
ثلاث أسباب تجعل الاتصالات المتبقية تهيمن على الهياكل العميقة:
1. تدفق التدرج. أثناء الانتشار العكسي، يوفر الإضافة مسارًا مباشرًا للتدرجات من الإخراج إلى الإدخال، متجاوزًا الطبقة الفرعية. في كومة من 12 طبقة بدون بقايا، سيفقد إشارة التدرج قبل الوصول إلى التمثيلات المضمنة؛ مع البقايا، يبقى حجم التدرج صالحًا عبر مئات الطبقات.
2. تهيئة الهوية. عند التهيئة، تنتج أوزان الطبقة الفرعية مخرجات صغيرة. تعني الاتصال الباقي أن الطبقة N تمرر في البداية تقريبًا دون تغيير. يتعلم التدريب الدلتا تدريجيًا من نقطة بداية عاملة.
3. التعلم التركيبي. تتعلم كل كتلة تهيئة، لا استبدالًا. قد تضيف الطبقة 1 معلومات موضعية. قد تضيف الطبقة 2 هيكلًا نحويًا. قد تضيف الطبقة 7 علاقات دلالية. يتراكم التيار الباقي.
تطبيع الطبقة
قبل كل طبقة فرعية، يعيد LayerNorm تصحيح تمثيل كل رمز إلى متوسط صفر وتباين وحدة، ثم يطبق مكسبًا وانحيازًا مُتَعَلَّمًا لكل ميزة:
y = gamma * (x - mean(x)) / sqrt(var(x) + epsilon) + beta
يتم حساب المتوسط والتباين عبر بُعد d_model، بشكل منفصل لكل رمز (token). متغيرا متعلمين (gamma، beta، كل منهما بشكل [d_model]) يعيدان النطاق التعبيري. التوحيد يحافظ على التنشيطات في نطاق رقمي مستقر؛ بدون ذلك، تتكتل الاضطرابات الصغيرة في التدريب إلى تدرجات NaN.
**التوحيد قبل** مقابل **التوحيد بعد**
خيار دقيق لكنه حاسم
طريقتان لتوصيل تطبيع الطبقة في الطبقة الفرعية المتبقية:
ما بعد التطبيع (الورقة الأصلية لعام 2017):
x = LayerNorm(x + Attention(x))
يأتي تطبيع الطبقة بعد إضافة المتبقي. يتم تطبيع التيار المتبقي نفسه في كل طبقة.
قبل التطبيع (المعيار الحديث، المستخدم في ANDREA):
x = x + Attention(LayerNorm(x))
يوجد تطبيع الطبقة قبل الطبقة الفرعية، داخل فرع المتبقي. يبقى تدفق المتبقي غير متطبّع؛ فقط الإدخال إلى الطبقة الفرعية يتم إعادة توقييمه.
لماذا فاز قبل التطبيع
التطبيع اللاحق يتدرب بشكل سيء بدون تسخين معدل التعلم وتعديل دقيق لمعاملات الفرقية. تنفجر التدرجات في الطبقات المبكرة لأن كل تطبيع طبقة يعكر الحالة المتراكمة لتدفق المتبقي. الورقة الأصلية لعام 2017 استخدمت التطبيع اللاحق مع تعديل واسع؛ الأعمال اللاحقة (GPT-2، LLaMA، ANDREA) قامت بتوحيد قبل التطبيع.
تتدرب Pre-norm بثبات. يتراكم تدفق الباقي النظيف عبر جميع الطبقات؛ يتم تطبيع مدخلات الطبقة الفرعية فقط للاستقرار العددي. تُفضل المحولات الحديثة pre-norm افتراضيًا، ويُرث & ANDREA ذلك الخيار.
معادلة الكتلة النهائية
دمج الباقيات، تطبيع الطبقة في موضع pre-norm، وكلا الطبقتين الفرعيتين يعطي كتلة & ANDREA الكاملة:
```python
def block_forward(x):
```
x = x + Attention(LayerNorm(x)) # طبقة الاهتمام
x = x + MLP(LayerNorm(x)) # طبقة MLP
return x
طبقتان فرعيتان، إضافتان متبقتان، تطبيعان طبقيتان (ملاحظة: كل طبقة فرعية لها تطبيع طبقي خاص بها؛ ANDREA-120M لديها 24 تطبيعًا طبقيًا عبر 12 كتلة بالإضافة إلى واحدة نهائية في المخرج، أي 25 إجمالاً). كرر 12 مرة. هذا هو جذع ANDREA-120M.
لماذا يُثبت Pre-Norm التدريب
طبقتان خطيتان، تنشيط واحد
ثلاث عمليات
طبقة MLP الفرعية هي برسبترون ذو طبقتين مع تنشيط غير خطي بين الطبقتين:
def mlp_forward(x):
h = x · W_1 + b_1 # توسيع: d_model → mlp_dim
h = GELU(h) # تنشيط غير خطي
y = h · W_2 + b_2 # تضييق: mlp_dim → d_model
return y
ثلاث عمليات. عمليتان خطيتان، وواحدة غير خطية. العملية الخطية الأولى توسع العرض؛ والثانية تعيده إلى التصغير.
نسبة التوسع 4×
المحولات الحديثة تحدد mlp_dim = 4 × d_model. ANDREA-120M:
d_model = 768
mlp_dim = 4 × 768 = 3072
شكل W_1 = [768, 3072] # ~2.36M معلمات
شكل W_2 = [3072, 768] # ~2.36M معلمات
معلمات MLP لكل كتلة = 4.72M (متجاهلين التحيزات)
يوجد MLP اثنان بين كل زوج من الطبقات الفرعية للانتباه (واحد لكل كتلة). اثنتا عشرة كتلة × 4.72M ≈ 56.6M معلمات MLP إجمالاً في ANDREA-120M، وهي تقريباً نصف جميع المعلمات.
لماذا 4×
ظهرت نسبة 4× تجريبيًا. النسب الأصغر تقلل من سعة النموذج. النسب الأكبر تُنتج عوائد متناقصة لكل معامل يُنفق. عبر عقود من البحث في الهياكل، ثبتت نسبة 4×؛ تظهر في GPT، BERT، T5، LLaMA، & ANDREA.
أعمال حديثة (PaLM، Chinchilla) وجدت أن آليات التحكم (SwiGLU) يمكن أن تستخدم توسعة 8/3× بسعة مماثلة بتكلفة أقل؛ ANDREA يبقى مع GELU الكلاسيكي + 4× للبساطة.
GELU: دالة تنشيط سلسة
ما يحسبه GELU
GELU (Gaussian Error Linear Unit) هي دالة التنشيط القياسية بين طبقات MLP في المحولات الحديثة. صيغتها:
GELU(x) = x · Φ(x)
Φ(x) هي دالة التوزيع التراكمي للتوزيع الطبيعي القياسي: الاحتمال أن تتساقط متغير عشوائي غوسي قياسي عند x أو أقل منه. يتم حسابها عدديًا:
Φ(x) ≈ 0.5 × (1 + tanh(sqrt(2/π) × (x + 0.044715 × x³)))
السلوك حسب المنطقة
- للـ x موجب كبير: Φ(x) ≈ 1، لذا GELU(x) ≈ x. مثل ReLU.
- للـ x سالب كبير: Φ(x) ≈ 0، لذا GELU(x) ≈ 0. مثل ReLU.
- قرب x = 0: Φ(x) ≈ 0.5، لذا GELU(0) = 0 بالضبط. انتقال سلس عبر الأصل.
على عكس ReLU، يسمح GELU بمرور بعض المدخلات السالبة، مرجحة بـ Φ(x). مدخل سالب صغير لا يزال يساهم بناتج سالب صغير، لكن أقل من المدخل الكامل.
لماذا تفوق GELU على ReLU
تجريبيًا، تصل الـ transformers المدربة باستخدام GELU إلى خسارة أقل من الـ transformers المدربة باستخدام ReLU عند نفس عدد المعاملات. الأمر المهم هو السلاسة حول الصفر: القطع الحاد لـ ReLU عند الصفر ينتج انقطاعات في التدرجات؛ منحنى GELU السلس يوفر تدرجات أنظف للانتشار العكسي.
محرك تدريب ANDREA microgpt_cuda.cu يحتوي على نواة GELU مكتوبة يدويًا لـ CUDA. تستخدم النواة التقريب باستخدام tanh أعلاه؛ وحدات معالجة الرسوميات الحديثة تحتوي على tanh كعملية تعليمة واحدة.
حساب معاملات MLP
اثنتا عشرة كتلة تتكون منها ANDREA-120M
من الكتلة إلى النموذج
التمرير الأمامي الكامل لـ ANDREA-120M:
def model_forward(token_ids):
x = token_embed(token_ids) + position_embed(positions)
for block_idx in range(n_layer): # 12 كتل
x = block_forward(x) # التركيز + MLP مع بقايا
x = LayerNorm(x) # التطبيع النهائي
logits = x · token_embed.T # أوزان مشتركة لإسقاط الإخراج
return logits
ستة خطوط. الجزء الأساسي يعيش داخل block_forward، الذي يُدعى اثني عشر مرة. البِدْعَات (Embeddings) تبدأ الأنبوب؛ الإزالة المرتبطة للبِدْعَات (نفس المصفوفة المستخدمة للبحث عن الإدخال، معكوسة الاتجاه لإسقاط الإخراج) تنهيه.
العمق كتركيب
كل كتلة تقرأ تيار الباقي (residual stream)، تحسب دلتا، وتضيفها مرة أخرى. بعد اثنتي عشرة مرورية، يحتوي التيار على المساهمات المتراكمة من كل كتلة. داخليًا، تميل الطبقات إلى التخصص:
- الطبقات المبكرة (1-3): أنماط نحوية، هيكل موضعي
- الطبقات الوسطى (4-8): علاقات الكلمات، حدود العبارات
- الطبقات المتأخرة (9-12): المحتوى الدلالي، استرجاع الحقائق
يظهر هذا التخصص من ضغط التدريب، وليس من خيارات التصميم المعماري. نفس تصميم الكتلة المتجانسة ينتج طبقات متخصصة عند تدريبها على اللغة.
إجمالي معاملات الكتلة
| المكون | لكل كتلة | عبر 12 كتلة |
|---|---|---|
| إسقاطات الاهتمام (4×W) | 2.36M | 28.3M |
| أوزان MLP (W_1 + W_2) | 4.72M | 56.6M |
| معايير الطبقة (gamma, beta) | ~3K (تافه) | ~37K |
| الإجمالي لكل كتلة | ~7.1M | ~85M |
85M معلمة في الجذع. أضف ~13M في تضمينات الرموز (8449 مفردات × 768 d_model × 2 للإدخال/الإخراج المرتبط) بالإضافة إلى معيار طبقة نهائي، ويصل عدد معلمات ANDREA-120M إلى حوالي 120M. تصميم الكتلة يمثل ثلثي الإجمالي؛ التضمينات الباقي.