English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

अटेंशन प्लस MLP, दोहराया गया

ट्रांसफॉर्मर ब्लॉक प्री-नॉर्म संरचना


दो सबलेयर्स

एक ट्रांसफॉर्मर ब्लॉक में ठीक दो सबलेयर्स होते हैं, प्रत्येक [batch, seq_len, d_model] आकार के टोकन सीक्वेंस पर कार्य करता है:


1. मल्टी-हेड अटेंशन सबलेयर। टोकन एक-दूसरे को देखते हैं। एक्टिविटी 68 ने इसकी विस्तृत जानकारी दी थी। आउटपुट शेप इनपुट शेप से मेल खाता है।

2. फीड-फॉरवर्ड MLP सबलेयर। प्रत्येक टोकन स्वतंत्र रूप से दो-लेयर परसेप्ट्रॉन के माध्यम से परिवर्तित होता है। कोई क्रॉस-टोकन जानकारी प्रवाह नहीं। आउटपुट शेप इनपुट शेप से मेल खाता है।


दोनों सबलेयर [batch, seq_len, d_model] शेप को संरक्षित रखते हैं। यह संरक्षण ब्लॉकों को स्टैक करने की अनुमति देता है: लेयर N का आउटपुट लेयर N+1 के इनपुट को बिना किसी शेप एक्रोबेटिक्स के फीड करता है।


प्रत्येक सबलेयर क्या योगदान देता है

अटेंशन जानकारी को पोजीशन्स के अक्रॉस स्थानांतरित करता है: पोजीशन 17 पर एक टोकन पोजीशन्स 1 से 16 तक की जानकारी खींच सकता है। MLP जानकारी को प्रत्येक पोजीशन के अंदर परिवर्तित करता है: एक टोकन का प्रतिनिधित्व सीखे गए नॉन-लीनियर फंक्शन्स के माध्यम से रीशेप होता है, लेकिन कभी अपने पड़ोसियों को नहीं देखता।


ब्लॉकों को ढेर करने से ये दो संचालन वैकल्पिक होते हैं। लेयर 1 अटेंशन पोजीशन्स को मिश्रित करता है। लेयर 1 MLP प्रति-पोजीशन को पुन: आकार देता है। लेयर 2 अटेंशन फिर से मिश्रित करता है, अब पुन: आकारित प्रतिनिधित्वों पर। यह वैकल्पिकता गहराई के साथ अभिव्यंजक शक्ति को बढ़ाती है।


ANDREA का स्टैक


Variantn_layern_headd_modelmlp_dim
ANDREA-12M6123841536
ANDREA-120M12127683072
ANDREA-480M162415366144

परिवार में mlp_dim = 4 × d_model का अनुपात देखें। यह अनुपात लगभग हर आधुनिक ट्रांसफॉर्मर में लागू होता है। धारा 3 में इसका कारण समझाया गया है।

सबलेयर्स का नामकरण

एक ट्रांसफॉर्मर ब्लॉक में दो सबलेयर्स होते हैं। उन्हें क्रम में नाम दें, और प्रत्येक के लिए बताएं कि यह जानकारी को पदों के बीच (टोकन-से-टोकन) ले जाता है या एकल पद के अंदर जानकारी को परिवर्तित करता है (प्रत्येक टोकन के लिए स्वतंत्र)। प्रत्येक सबलेयर के लिए एक वाक्य।

स्किप कनेक्शन क्यों महत्वपूर्ण हैं

अवशेष पैटर्न

प्रत्येक सबलेयर अपनी गणना को अवशेष कनेक्शन में लपेटता है। आउटपुट में इनपुट को वापस जोड़ा जाता है:


x = x + Attention(LayerNorm(x))     # ध्यान सबलेयर
x = x + MLP(LayerNorm(x))           # MLP सबलेयर

प्रत्येक सबलेयर के अंदर, Attention(...) या MLP(...) फंक्शन एक डेल्टा उत्पन्न करता है। ब्लॉक इनपुट को प्रतिस्थापित नहीं करता; यह एक सीखी गई सुधार जोड़ता है।


यह क्यों महत्वपूर्ण है

गहन वास्तुकलों में रेसिडुअल कनेक्शनों के प्रभुत्व के तीन कारण:


1. ग्रेडिएंट प्रवाह। बैकप्रोपगेशन के दौरान, जोड़ (addition) ग्रेडिएंट्स को आउटपुट से इनपुट तक सीधा मार्ग प्रदान करता है, सबलेयर को बायपास करते हुए। बिना रेसिड्यूअल्स के 12-लेयर स्टैक एम्बेडिंग्स तक पहुँचने से पहले ही ग्रेडिएंट सिग्नल खो देगा; रेसिड्यूअल्स के साथ, ग्रेडिएंट की परिमाण सैकड़ों लेयर्स तक उपयोग योग्य रहती है।


2. पहचान प्रारंभिकरण (Identity initialization)। प्रारंभिकरण पर, सबलेयर वेट्स छोटे आउटपुट उत्पन्न करते हैं। रेसिड्यूअल कनेक्शन का मतलब है कि लेयर N प्रारंभ में लगभग अपरिवर्तित पास होती है। ट्रेनिंग एक कार्यशील प्रारंभिक बिंदु से धीरे-धीरे डेल्टा सीखती है।


3. रचनात्मक अधिगम (Compositional learning)। प्रत्येक ब्लॉक एक परिष्करण सीखता है, न कि प्रतिस्थापन। लेयर 1 स्थिति संबंधी जानकारी जोड़ सकती है। लेयर 2 वाक्यरचना संरचना जोड़ सकती है। लेयर 7 अर्थगत संबंध जोड़ सकती है। रेसिड्यूअल स्ट्रीम संचयित होती है।


लेयर नॉर्मलाइजेशन (Layer Normalization)

प्रत्येक सबलेयर से पहले, LayerNorm प्रत्येक टोकन के प्रतिनिधित्व को शून्य माध्य और इकाई विचलन (zero mean & unit variance) पर पुनःस्केल करता है, फिर प्रति-फीचर लाभ और पूर्वाग्रह (learned per-feature gain & bias) लागू करता है:


y = gamma * (x - mean(x)) / sqrt(var(x) + epsilon) + beta

औसत और विवरण d_model आयाम के पार गणना की जाती है, प्रत्येक टोकन के लिए अलग-अलग। दो सीखे गए वेक्टर (gamma, beta, प्रत्येक आकार [d_model]) अभिव्यंजक स्केल को पुनर्स्थापित करते हैं। सामान्यीकरण सक्रियणों को संख्यात्मक रूप से स्थिर रेंज में रखता है; इसके बिना, छोटी प्रशिक्षण अस्थिरताएँ NaN ग्रेडिएंट्स में बर्फ़बारी बन जाती हैं।

प्री-नॉर्म बनाम पोस्ट-नॉर्म

एक सूक्ष्म लेकिन महत्वपूर्ण विकल्प
```

रीज़िडुअल सबलेयर में लेयर नॉर्म को वायर करने के दो तरीके:


पोस्ट-नॉर्म (मूल 2017 पेपर):

x = LayerNorm(x + Attention(x))

लेयर नॉर्म रीज़िडुअल जोड़ने के बाद आता है। रीज़िडुअल स्ट्रीम खुद हर लेयर पर नॉर्मलाइज़ होता है।


प्री-नॉर्म (आधुनिक मानक, ANDREA में उपयोग किया गया):

x = x + Attention(LayerNorm(x))

लेयर नॉर्म सबलेयर से पहले स्थित है, अवशिष्ट शाखा के अंदर। अवशिष्ट स्ट्रीम अन-नॉर्मलाइज्ड रहती है; केवल सबलेयर के इनपुट को रीस्केल किया जाता है।


प्री-नॉर्म क्यों जीता

पोस्ट-नॉर्म LR वार्मअप और सावधानीपूर्वक हाइपरपैरामीटर ट्यूनिंग के बिना खराब ट्रेन करता है। शुरुआती लेयर्स में ग्रेडिएंट्स फट जाते हैं क्योंकि प्रत्येक लेयर नॉर्म अवशिष्ट स्ट्रीम की संचित स्थिति को बिखेर देता है। मूल 2017 पेपर ने पोस्ट-नॉर्म का व्यापक ट्यूनिंग के साथ उपयोग किया; बाद के कार्य (GPT-2, LLaMA, ANDREA) ने प्री-नॉर्म को मानक बनाया।


प्री-नॉर्म स्थिर रूप से प्रशिक्षित करता है। रेसिडुअल स्ट्रीम सभी लेयर्स में साफ़ जमा होता है; केवल सबलेयर इनपुट्स को संख्यात्मक स्थिरता के लिए नॉर्मलाइज़ किया जाता है। आधुनिक ट्रांसफॉर्मर्स डिफ़ॉल्ट रूप से प्री-नॉर्म का उपयोग करते हैं, & ANDREA भी वही विकल्प अपनाता है।


अंतिम ब्लॉक समीकरण

रेसिडुअल्स, प्री-नॉर्म स्थिति में लेयर नॉर्म, & दोनों सबलेयर्स को मिलाकर ANDREA का पूर्ण ब्लॉक मिलता है:


```python
def block_forward(x):
```
x = x + Attention(LayerNorm(x))   # attention sublayer
x = x + MLP(LayerNorm(x))         # MLP sublayer
return x

दो सबलेयर्स, दो residual additions, दो layer norms (नोट: प्रत्येक सबलेयर का अपना layer norm है; ANDREA-120M में 12 ब्लॉक्स में 24 layer norms प्लस आउटपुट पर एक अंतिम, कुल 25). 12 बार दोहराएं. यही ANDREA-120M का trunk है.

Pre-Norm प्रशिक्षण को स्थिर क्यों करता है

ANDREA pre-norm का उपयोग करता है: `x = x + Attention(LayerNorm(x))`. post-norm के साथ तुलना करें: `x = LayerNorm(x + Attention(x))`. गहराई वाले stacks में pre-norm post-norm से अधिक स्थिर रूप से क्यों प्रशिक्षित होता है, gradient-flow के दृष्टिकोण से एक कारण दें. अपने उत्तर में residual stream का उल्लेख करें.

दो रैखिक लेयर्स, एक सक्रियण

तीन संचालन

MLP सबलेयर दो-लेयर पर्सेप्ट्रॉन है जिसमें लेयर्स के बीच एक गैर-रैखिक सक्रियण होता है:


def mlp_forward(x):
h = x · W_1 + b_1        # विस्तार: d_model → mlp_dim
h = GELU(h)              # गैर-रैखिक सक्रियण
y = h · W_2 + b_2        # संकुचन: mlp_dim → d_model
return y

तीन संचालन। दो रैखिक, एक गैर-रैखिक। पहला रैखिक चौड़ाई बढ़ाता है; दूसरा वापस सिकुड़ाता है।


4× विस्तार अनुपात

आधुनिक ट्रांसफॉर्मर mlp_dim = 4 × d_model सेट करते हैं। ANDREA-120M:


d_model = 768
mlp_dim = 4 × 768 = 3072
W_1 का आकार = [768, 3072]      # ~2.36M पैरामीटर
W_2 का आकार = [3072, 768]      # ~2.36M पैरामीटर
प्रति ब्लॉक MLP पैरामीटर = 4.72M (बायस को नजरअंदाज करते हुए)

हर ध्यान उपलेयर जोड़ी के बीच दो MLP स्थित होते हैं (प्रति ब्लॉक एक)। बारह ब्लॉक × 4.72M ≈ 56.6M MLP पैरामीटर कुल मिलाकर ANDREA-120M में, सभी पैरामीटरों का लगभग आधा हिस्सा।


4× क्यों

4× अनुपात प्रयोगात्मक रूप से उभरा। छोटे अनुपात मॉडल क्षमता को कम करते हैं। बड़े अनुपात प्रति पैरामीटर व्यय पर घटते रिटर्न देते हैं। दशकों के आर्किटेक्चर खोज में, 4× टिका हुआ है; यह GPT, BERT, T5, LLaMA, और ANDREA में दिखता है।


हाल का कार्य (PaLM, Chinchilla) ने पाया कि गेटिंग तंत्र (SwiGLU) 8/3× विस्तार का उपयोग कम लागत पर तुलनीय क्षमता के साथ कर सकते हैं; ANDREA सरलता के लिए क्लासिक GELU + 4× के साथ रहता है।

GELU: एक सुगम सक्रियण

GELU क्या गणना करता है

GELU (Gaussian Error Linear Unit) आधुनिक ट्रांसफॉर्मर्स में MLP लेयर्स के बीच मानक सक्रियण है। इसका सूत्र:


GELU(x) = x · Φ(x)

Φ(x) मानक सामान्य वितरण का संचयी वितरण फलन है: एक मानक गaussian यादृच्छिक चर के x पर या नीचे गिरने की संभावना। संख्यात्मक रूप से गणना की गई:


Φ(x) ≈ 0.5 × (1 + tanh(sqrt(2/π) × (x + 0.044715 × x³)))

क्षेत्र के अनुसार व्यवहार

- बड़े धनात्मक x के लिए: Φ(x) ≈ 1, इसलिए GELU(x) ≈ x। ReLU की तरह।

- बड़े ऋणात्मक x के लिए: Φ(x) ≈ 0, इसलिए GELU(x) ≈ 0। ReLU की तरह।

- x = 0 के पास: Φ(x) ≈ 0.5, इसलिए GELU(0) = 0 बिल्कुल। मूल बिंदु के माध्यम से सुगम संक्रमण।


ReLU के विपरीत, GELU कुछ ऋणात्मक इनपुट को Φ(x) द्वारा भारित करके पार होने देता है। एक छोटा ऋणात्मक इनपुट अभी भी एक छोटा ऋणात्मक आउटपुट योगदान देता है, बस पूर्ण इनपुट से कम।


GELU का ReLU से बेहतर प्रदर्शन क्यों

प्रयोगात्मक रूप से, GELU के साथ प्रशिक्षित ट्रांसफॉर्मर समान पैरामीटर संख्या पर ReLU के साथ प्रशिक्षित ट्रांसफॉर्मर से कम लॉस तक पहुँचते हैं। शून्य के आसपास की चिकनाहट मायने रखती है: ReLU का शून्य पर कठोर कटऑफ ग्रेडिएंट असातत्य पैदा करता है; GELU का चिकना वक्र बैकप्रोपगेशन के लिए साफ़ ग्रेडिएंट प्रदान करता है।


ANDREA का ट्रेनिंग इंजन microgpt_cuda.cu एक हस्तलिखित GELU CUDA kernel के साथ आता है। यह kernel ऊपर दिए गए tanh अनुमान का उपयोग करता है; आधुनिक GPUs में tanh एकल-निर्देश op के रूप में शामिल है।

MLP पैरामीटर्स की गणना

ANDREA-120M में `d_model=768`, `mlp_dim=3072`, और `n_layer=12` है। सभी 12 ब्लॉक्स में MLP वेट मैट्रिक्स (`W_1` और `W_2`) के कुल पैरामीटर्स की गणना करें। बायसेस को नजरअंदाज करें। अपना अंकगणित दिखाएँ। फिर बताएँ कि यह ANDREA-120M के ~120M कुल पैरामीटर्स का क्या अंश है (एक दशमलव स्थान तक गोल करें)।

बारह ब्लॉक्स मिलकर बनाते हैं ANDREA-120M

ब्लॉक से मॉडल तक

ANDREA-120M का पूरा फॉरवर्ड पास:


def model_forward(token_ids):
x = token_embed(token_ids) + position_embed(positions)
for block_idx in range(n_layer):       # 12 ब्लॉक्स
x = block_forward(x)               # attention + MLP w/ residuals
x = LayerNorm(x)                       # अंतिम norm
logits = x · token_embed.T             # आउटपुट प्रोजेक्शन के लिए tied weights
return logits

छह लाइनें। मुख्य भाग block_forward के अंदर रहता है, जिसे बारह बार बुलाया जाता है। एम्बेडिंग्स पाइपलाइन शुरू करती हैं; बंधी अनएम्बेडिंग (इनपुट लुकअप के लिए इस्तेमाल की गई समान मैट्रिक्स, आउटपुट प्रोजेक्शन के लिए ट्रांसपोज्ड) इसे समाप्त करती है।


गहराई के रूप में संरचना

प्रत्येक ब्लॉक रेसिडुअल स्ट्रीम को पढ़ता है, एक डेल्टा की गणना करता है, और इसे वापस जोड़ देता है। बारह पास के बाद, स्ट्रीम में हर ब्लॉक से संचित योगदानों का समावेश होता है। आंतरिक रूप से, लेयर्स विशेषज्ञता की ओर झुकती हैं:


- प्रारंभिक लेयर्स (1-3): वाक्यविन्यास पैटर्न, स्थिति संरचना

- मध्य लेयर्स (4-8): शब्द संबंध, वाक्यांश सीमाएँ

- अंतिम लेयर्स (9-12): अर्थगत सामग्री, तथ्यात्मक स्मरण


यह विशेषज्ञता प्रशिक्षण दबाव से उभरती है, वास्तुशिल्प विकल्पों से नहीं। एक ही समान ब्लॉक डिज़ाइन भाषा पर प्रशिक्षित होने पर विशेषज्ञीकृत परतें उत्पन्न करता है।


कुल ब्लॉक पैरामीटर


घटकप्रति ब्लॉक12 ब्लॉकों में
ध्यान प्रक्षेपण (4×W)2.36M28.3M
MLP वजन (W_1 + W_2)4.72M56.6M
लेयर नॉर्म्स (gamma, beta)~3K (नगण्य)~37K
प्रति ब्लॉक कुल~7.1M~85M

ट्रंक में 85M पैरामीटर। टोकन एम्बेडिंग्स में ~13M जोड़ें (8449 vocab × 768 d_model × 2 बंधे input/output के लिए) प्लस अंतिम लेयर नॉर्म, & ANDREA-120M का पैरामीटर काउंट लगभग 120M पर पहुँच जाता है। ब्लॉक डिज़ाइन दो-तिहाई के लिए जिम्मेदार; शेष एम्बेडिंग्स।

एक टोकन को एक ब्लॉक के माध्यम से ट्रेस करना

ANDREA-120M के ब्लॉक 7 में 768-आयामी टोकन वेक्टर प्रवेश करता है। ब्लॉक के अंदर इसके साथ क्या होता है (pre-norm संरचना में) का वर्णन करें। उल्लेख करें: दोनों लेयर नॉर्म्स, दोनों सबलेयर्स, दोनों रेसिडुअल जोड़, & अंतिम आकार। कम से कम एक स्थान बताएं जहाँ रेसिडुअल स्ट्रीम अप्रभावित रहती है & एक स्थान जहाँ यह संशोधित होती है।