من الكلمات إلى الأرقام
مترجم عند الحدود
لا يرى نموذج اللغة النص أبدًا. يرى أعدادًا صحيحة. يجلس المقسم عند معبر حدود: تدخل كلمات بشرية، وتخرج معرفات أعداد صحيحة. يعكس الإنتاج التدفق: تعود معرفات الأعداد الصحيحة، ويُنتج المقسم النص.
ثلاث مهام:
1. تقسيم. قطع سلسلة نصية إلى قطع (tokens).
2. تعيين. تخصيص معرف عددي فريد لكل قطعة من مفردات ثابتة.
3. عكس. إعادة بناء النص من المعرفات في وقت التوليد.
لماذا القطع، لا الكلمات الكاملة
مفردات الكلمات الكاملة تنفجر. الإنجليزية وحدها تحتوي على مئات الآلاف من الأشكال. الأسوأ، نموذج مدرب على كلمات كاملة لا يمكنه التعامل مع خطأ إملائي، أو اسم جديد، أو عبارة أجنبية: أي كلمة غير مرئية تُعيَّن إلى فتحة <UNK> واحدة.
تقنية التقسيم الفرعي للكلمات تحل هذه المشكلة. مفردات من القطع الشائعة تتكون إلى أي كلمة، بما في ذلك تلك التي لم تُرَ أثناء التدريب. استراتيجيتان تهيمنان: BPE (ترميز زوج البايت) والتجزئة التوزيعية. ANDREA تختار استراتيجية ثانية.
لماذا التقسيم الفرعي
أين ينقطع الكلمة
زيليغ هاريس، 1955
لاحظ لغوي يدعى زيليغ هاريس شيئًا ما. داخل كلمة، يختلف عدد الحروف المميزة التي تتبع تسلسل حروف معين بشكل حاد. بعد un يمكن العثور على عشرات الحروف: a، b، c، d، e ... بعد unbel يتبعها مجموعة صغيرة فقط: i (ثم ievable).
زيادة حادة في تنوع اللاحقين تشير إلى حد وحدة مورفيم محتمل. بعد un (بادئة)، يرتفع التنوع لأن العديد من الجذور يمكن أن تتبع. داخل جذر مثل believ، يبقى التنوع منخفضًا لأن الحروف تتنبأ ببعضها البعض. عند الانتقال بين الوحدات المورفيمية، يرتفع التنوع مرة أخرى.
من قمم التنوع إلى الشرائح
شغّل ذلك الكاشف عبر مجموعة تدريبية. كل كلمة تتبرع بأدلة إحصائية. يجمع tokenizer الشرائح عالية التكرار التي تتكرر عند حدود تشكل المورفيمات: un, re, pre, believ, know, ing, able, ly, tion, ed.
لا تسميات. لا يقوم اللغوي بتسمية المورفيمات يدويًا. إحصائية تتزامن الحروف تقوم بالعمل.
هاريس مقابل BPE
| الخاصية | هاريس | BPE |
|---|---|---|
| معيار الحدود | ارتفاع تنوع اللاحقين | تكرار الزوج |
| الشكل اللغوي | محاذاة المورفيم (بادئة، جذر، خاتمة) | أزواج بايت متكررة |
مثال: unbelievably | un + believ + abl + y | unb + eli + eva + bly |
| التعميم | قوي (جذر + لاحق يعاود التركيب) | أضعف (الأزواج لا تحتاج محاذاة) |
كلاهما ينتج قطعًا فرعية للكلمات. قطع هاريس تميل إلى المحاذاة مع ما يسميه اللغوي مورفيم: أصغر وحدة معنوية. قطع BPE تحسن الضغط: أكثر زوج بايت تكرارًا يتم دمجه، بغض النظر عن المعنى.
تقسيم كلمة
ثلاث شرائح مفردات
تشريح مفردات ANDREA
تقسيم Harris ينتج مفردات بثلاث شرائح:
الشريحة 1: 256 بايت أساسي. كل بايت UTF-8 ممكن (0x00 إلى 0xFF) يحصل على معرف رمزي خاص به. شبكة أمان: أي حرف يحتويه النص، يمكن للـtokenizer تمثيله كتسلسل من البايتات. لا يتم تشغيل <UNK> أبداً.
الشريحة 2: N قطعة مورفيمية. قطع شائعة تم اكتشافها من خلال التحليل التوزيعي. ANDREA-12M مدربة N = 4096؛ ANDREA-120M مدربة N = 8192. كل قطعة تضغط سلسلة بايتات متكررة متعددة إلى رمز واحد.
الشريحة 3: 1 رمز BOS. علامة خاصة توضع في بداية كل تسلسل تدريبي. تسمح للنموذج بتعلم 'هذه الموضع ليس لها ماضٍ'. ANDREA-12M وANDREA-120M كلاهما يحجزان معرفًا واحدًا بالضبط لـBOS.
أحجام المفردات
| النموذج | البايتات الأساسية | قطع المورفيم (N) | BOS | حجم المفردات |
|---|---|---|---|---|
| ANDREA-12M | 256 | 4096 | 1 | 4353 |
| ANDREA-120M | 256 | 8192 | 1 | 8449 |
256 + N + 1 = حجم المفردات. بسيط. قابل للتكرار. مفتوح.
لماذا يهم لوحة البايت
يضمن التراجع إلى البايت التغطية. إذا واجه نموذج 日本語 ولم يكن لدى الـtokenizer مورفيمات يابانية، فإن البايتات الفردية UTF-8 تحمل تسلسلاً عبره. يتدرب النموذج على البايتات؛ تعتمد الجودة على النصوص النادرة على السعة والتعرض، لكن لا يتعطل الـtokenizer أبداً بسبب الإدخال.
احسب حجم المفردات
بداية التسلسل
لماذا تحتاج التسلسل إلى علامة
محول يعتمد على المفكك فقط يتنبأ بالرمز التالي من السياق السابق. الموضع 0 ليس لديه سياق سابق. بدون علامة، يجلس الموضع 0 في ثغرة منطقية: لا يوجد شيء للنموذج للانتباه إليه.
BOS يحل الثغرة. رمز خاص واحد (ID = 256 + N) يجلس في بداية كل تسلسل أثناء التدريب. يتعلم النموذج:
- 'عندما ترى BOS، تنبأ بالرمز الأول المحتمل للنص الطبيعي.'
- 'عندما ترى BOS متبوعًا بكلمة، تلك الكلمة هي بداية تسلسل، وليست استمرارًا.'
رمز واحد، استخدامات كثيرة
يظهر BOS في:
- وقت التدريب: يُضاف في البداية إلى كل قطعة نص تُدخل إلى النموذج.
- وقت الاستدلال: يُضاف في البداية إلى الاستعلام ليراه النموذج كإشارة 'بداية جديدة' مألوفة.
- تحديد الحدود: في بعض خطوط المعالجة، يفصل بين الوثائق المجمعة.
يحجز ANDREA معرفًا واحدًا فقط لـ BOS. لا EOS، لا PAD، لا رموز خاصة إضافية خارج ما تحتاجه مفردات. البساطة تبقى قيمة permacomputer دائمة: كل رمز يستحق مكانه.
تكملة النشاط 3
يغطي النشاط 3 (grow_a_language_model_tokenizer_diet) ما يحدث عندما يكون N كبيرًا جدًا أو يختلف كوربوس المفردات عن كوربوس التدريب. أضاع ANDREA-12M 63.6% من مفرداته؛ أصلح ANDREA-120M ذلك. اقرأ المزيد.