एम्बेडिंग एक लुकअप है, न कि एक फंक्शन
टोकनाइज़र के बाद पहली लेयर
एक टोकनाइज़र मॉडल को पूर्णांक आईडी देता है: [256, 1842, 7301, ...]। ट्रांसफॉर्मर सबसे पहले प्रत्येक आईडी को d_model फ्लोट्स के वेक्टर में बदलता है। वह वेक्टर d_model-आयामी स्पेस में रहता है (ANDREA-120M के लिए 768 आयाम)।
एक एम्बेडिंग लेयर एक लुकअप टेबल है, न कि एक फंक्शन। एक विशाल मैट्रिक्स की कल्पना करें:
आकार: (V, d_model)
पंक्ति 0: [e_0_0, e_0_1, ..., e_0_767]
पंक्ति 1: [e_1_0, e_1_1, ..., e_1_767]
...
पंक्ति 8448: [e_8448_0, e_8448_1, ..., e_8448_767]
Token ID i selects row i. Direct array access. No arithmetic, no activation. Just an index.
[BLOCK_TYPE SECTION/STEP]
[BLOCK_TYPE SECTION/STEP]
Trainable Floats
[BLOCK_TYPE SECTION/STEP]Every entry in that table starts as a small random float (typically drawn from a normal distribution scaled by 1/sqrt(d_model)). Backpropagation updates each row whenever its token ID appears in a batch. After training, similar tokens (cat, dog, pet) end up with similar vectors; unrelated tokens (cat, Tuesday, xylophone) sit far apart in vector space.
[BLOCK_TYPE SECTION/STEP]
ANDREA-120M टोकन एम्बेडिंग लागत
[BLOCK_TYPE SECTION/STEP][BLOCK_TYPE SECTION/STEP]
| मात्रा | मान | [BLOCK_TYPE SECTION/STEP]
|------------|-----------| [BLOCK_TYPE SECTION/STEP]
| V | 8,449 | [BLOCK_TYPE SECTION/STEP]
| d_model | 768 | [BLOCK_TYPE SECTION/STEP]
| पैरामीटर्स | 6,488,832 | [BLOCK_TYPE SECTION/STEP]
टोकन एम्बेडिंग टेबल में लगभग 6.5M पैरामीटर रहते हैं, जो ANDREA-120M के कुल पैरामीटर का लगभग 5.4% है। प्रत्येक शब्दावली स्लॉट को ये 768 फ्लोट प्राप्त होते हैं।
एम्बेडिंग टेबल का आकार निर्धारण
डॉट प्रोडक्ट समानता मापते हैं
वेक्टर तीरों के रूप में
एक 768-आयामी वेक्टर एक ऐसे स्थान में रहता है जिसे मनुष्य चित्रित नहीं कर सकते, लेकिन वही बीजगणित किसी भी आयाम में काम करता है। ट्रांसफॉर्मर्स के लिए दो मुख्य संक्रियाएँ महत्वपूर्ण हैं:
परिमाण (तीर की लंबाई):
||v|| = sqrt(v_0² + v_1² + ... + v_767²)
डॉट प्रोडक्ट (दो तीरों के बीच संरेखण):
u · v = u_0 × v_0 + u_1 × v_1 + ... + u_767 × v_767
डॉट प्रोडक्ट आपको क्या बताता है
किसी भी आयाम में सत्य दो तथ्य:
- u · v = ||u|| × ||v|| × cos(theta), जहाँ theta उनके बीच का कोण है।
- एक ही दिशा में इंगित करने वाले सदिश बड़े धनात्मक डॉट उत्पाद देते हैं।
- विपरीत दिशाओं में इंगित करने वाले सदिश बड़े ऋणात्मक डॉट उत्पाद देते हैं।
- समकोण पर स्थित सदिशों का डॉट उत्पाद शून्य होता है।
डॉट उत्पाद = असामान्यीकृत समानता। cat और dog के लिए प्रशिक्षित टोकन एम्बेडिंग्स का डॉट उत्पाद उच्च होता है क्योंकि बैकप्रोपेगेशन ने उन्हें एक साथ धकेल दिया (दोनों पालतू जानवर संबंधी संदर्भों की भविष्यवाणी करते हैं)। cat और Tuesday लगभग लंबकोणीय हो जाते हैं क्योंकि वे भिन्न संदर्भों की भविष्यवाणी करते हैं।
ट्रांसफॉर्मर को क्यों ध्यान देना पड़ता है
Activity 5 (grow_a_language_model_attention) डॉट प्रोडक्ट्स से attention बनाता है: एक query vector को key vectors के साथ डॉट-प्रोडक्ट किया जाता है, जिससे स्कोर मिलते हैं जो बताते हैं कि अगला टोकन प्रेडिक्ट करने के लिए कौन-से पिछले टोकन महत्वपूर्ण हैं। Embeddings और डॉट प्रोडक्ट्स मिलकर ट्रांसफॉर्मर के अंदर हर इंटरैक्शन को संभालते हैं।
समानता का अनुमान लगाएं
ANDREA सीखे हुए पोज़िशन एम्बेडिंग्स का उपयोग करता है
एक समस्या
एक टोकन एम्बेडिंग मॉडल को बताती है कि इस पोज़िशन पर कौन-सा शब्द है। यह मॉडल को यह नहीं बताती कि वह शब्द कहाँ स्थित है। बिना पोज़िशन जानकारी के, एक ट्रांसफ़ॉर्मर the cat sat on a mat और mat a on sat cat the को समान रूप से देखता है: टोकनों का एक ही सेट, कोई क्रम संकेत नहीं।
ट्रांसफ़ॉर्मर साहित्य में तीन समाधान मौजूद हैं:
साइनसॉइडल (Vaswani 2017). साइन और कोसाइन पर आधारित एक निश्चित गणितीय सूत्र। पोज़िशन 0 को एक विशिष्ट 768-वेक्टर मिलता है; पोज़िशन 1 को दूसरा; कभी प्रशिक्षित नहीं, कभी अपडेट नहीं। सूत्र के माध्यम से किसी भी पोज़िशन पर सामान्यीकरण करता है।
RoPE (Rotary Position Embedding). क्वेरी और की वेक्टर को पोज़िशन के आधार पर घुमाता है। LLaMA और Qwen में इस्तेमाल होता है। कोई अतिरिक्त पैरामीटर नहीं; रोटेशन अटेंशन में ही बिल्ट-इन है।
Learned. एक अलग एम्बेडिंग टेबल जिसका आकार (T, d_model) है, जहाँ T संदर्भ लंबाई है। प्रत्येक पंक्ति टोकन एम्बेडिंग की तरह बैकप्रोपेगेशन द्वारा ट्रेन होती है।
ANDREA's Choice: Learned
ANDREA microGPT से learned-position दृष्टिकोण विरासत में लेता है, जो nanoGPT से आया, जो GPT-2 से आया। एक तर्क:
- सरलता. अटेंशन में कोई विशेष गणित नहीं। एक पोज़िशन टेबल टोकन टेबल जैसी ही दिखती है।
- कस्टम CUDA के साथ संगतता. ANDREA का microgpt_cuda.cu इंजन दो एम्बेडिंग लुकअप को समान रूप से हैंडल करता है; sin/cos कर्नेल की आवश्यकता नहीं।
- निश्चित संदर्भ के लिए पर्याप्त. ANDREA T को 1024 पर सीमित करता है। सीमित-लंबाई वाले अनुक्रमों के लिए एक सीखी हुई टेबल ठीक काम करती है।
ANDREA-120M पोज़िशन एम्बेडिंग लागत
| मात्रा | मान |
|---|---|
| T (context) | 1,024 |
| d_model | 768 |
| Parameters | 786,432 |
0.79M parameters for position. Combined with token embeddings: 6.49M + 0.79M = 7.27M embedding parameters total for ANDREA-120M.
How They Combine
At each position t in an input sequence:
x_t = token_embedding[token_id_t] + position_embedding[t]
दो 768-वेक्टर, एलिमेंट-वाइज़ जोड़े गए। परिणाम, x_t, पहले ट्रांसफॉर्मर ब्लॉक में जाता है। मॉडल उन्हें कभी अलग नहीं करता; यह संयुक्त सिग्नल का उपयोग करना सीखता है।
लर्न्ड बनाम साइनुसॉइडल
जहाँ एम्बेडिंग पैरामीटर रहते हैं
एक पूर्ण ANDREA-120M एम्बेडिंग लेयर
| घटक | आकार | पैरामीटर |
|---|---|---|
| टोकन एम्बेडिंग तालिका | 8,449 × 768 | 6,488,832 |
| पोज़िशन एम्बेडिंग तालिका | 1,024 × 768 | 786,432 |
| कुल | 7,275,264 |
लगभग 7.3M पैरामीटर। ANDREA-120M की कुल पैरामीटर संख्या: ~120M। एम्बेडिंग लेयर अकेले: 6%। शेष 94% ट्रांसफॉर्मर ब्लॉक्स में रहता है (attention + MLP, गतिविधियों 5-7 में कवर किया गया)।
अनटाइड बनाम टाइड एम्बेडिंग्स
कई ट्रांसफॉर्मर डिज़ाइन (GPT-2 सहित) एक टोकन एम्बेडिंग को अंतिम आउटपुट प्रोजेक्शन से जोड़ते हैं: इनपुट और आउटपुट (शब्दावली पर logits) दोनों पर समान V × d_model मैट्रिक्स का उपयोग किया जाता है। जोड़ने से V × d_model पैरामीटर बचते हैं और अक्सर गुणवत्ता भी सुधारती है।
ANDREA untied embeddings का उपयोग करता है: इनपुट एम्बेडिंग और आउटपुट प्रोजेक्शन अलग-अलग मैट्रिक्स के रूप में ट्रेन होते हैं। Activity 7 (grow_a_language_model_transformer_block) अंतिम लेयर को कवर करता है।
अब तक का फॉरवर्ड पास
इनपुट: टोकन IDs [256, 1842, 7301, ...] (इनमें से 1024)। प्रत्येक ID एक 768-वेक्टर खोजता है। प्रत्येक पोज़िशन एक 768-वेक्टर खोजती है। एलिमेंट-वाइज़ जोड़ें। परिणाम: टोकन-+-पोज़िशन वेक्टर का (1024, 768) मैट्रिक्स x। x ट्रांसफॉर्मर ब्लॉक 1 में जाता है।
Activity 5 (grow_a_language_model_attention) कवर करता है कि ब्लॉक 1 क्या करता है: causal mask और softmax के साथ scaled dot-product attention।