un — نمو نموذج لغوي: مقسم Harris Morpheme [DESCRIPTION /]

un

ضيف

1 / ?

من الكلمات إلى الأرقام

مترجم عند الحدود

لا يرى نموذج اللغة النص أبدًا. يرى أعدادًا صحيحة. يجلس المقسم عند معبر حدود: تدخل كلمات بشرية، وتخرج معرفات أعداد صحيحة. يعكس الإنتاج التدفق: تعود معرفات الأعداد الصحيحة، ويُنتج المقسم النص.

ثلاث مهام:

1. تقسيم. قطع سلسلة نصية إلى قطع (tokens).

2. تعيين. تخصيص معرف عددي فريد لكل قطعة من مفردات ثابتة.

3. عكس. إعادة بناء النص من المعرفات في وقت التوليد.

لماذا القطع، لا الكلمات الكاملة

مفردات الكلمات الكاملة تنفجر. الإنجليزية وحدها تحتوي على مئات الآلاف من الأشكال. الأسوأ، نموذج مدرب على كلمات كاملة لا يمكنه التعامل مع خطأ إملائي، أو اسم جديد، أو عبارة أجنبية: أي كلمة غير مرئية تُعيَّن إلى فتحة <UNK> واحدة.

تقنية التقسيم الفرعي للكلمات تحل هذه المشكلة. مفردات من القطع الشائعة تتكون إلى أي كلمة، بما في ذلك تلك التي لم تُرَ أثناء التدريب. استراتيجيتان تهيمنان: BPE (ترميز زوج البايت) والتجزئة التوزيعية. ANDREA تختار استراتيجية ثانية.

Harris vs BPE

لماذا التقسيم الفرعي

مقسم كلمات كاملة يفشل مع الكلمة النادرة `proporian` (كلمة أنتجتها **ANDREA-12M** في الخطوة 43,100). سمِّ مشكلتين مختلفتين يتجنبهما مقسم فرعي للكلمات (**BPE** أو **Harris**) ولا يستطيع مقسم كلمات كاملة تجنبهما.

أين ينقطع الكلمة

زيليغ هاريس، 1955

لاحظ لغوي يدعى زيليغ هاريس شيئًا ما. داخل كلمة، يختلف عدد الحروف المميزة التي تتبع تسلسل حروف معين بشكل حاد. بعد un يمكن العثور على عشرات الحروف: a، b، c، d، e ... بعد unbel يتبعها مجموعة صغيرة فقط: i (ثم ievable).

زيادة حادة في تنوع اللاحقين تشير إلى حد وحدة مورفيم محتمل. بعد un (بادئة)، يرتفع التنوع لأن العديد من الجذور يمكن أن تتبع. داخل جذر مثل believ، يبقى التنوع منخفضًا لأن الحروف تتنبأ ببعضها البعض. عند الانتقال بين الوحدات المورفيمية، يرتفع التنوع مرة أخرى.

من قمم التنوع إلى الشرائح

شغّل ذلك الكاشف عبر مجموعة تدريبية. كل كلمة تتبرع بأدلة إحصائية. يجمع tokenizer الشرائح عالية التكرار التي تتكرر عند حدود تشكل المورفيمات: un, re, pre, believ, know, ing, able, ly, tion, ed.

لا تسميات. لا يقوم اللغوي بتسمية المورفيمات يدويًا. إحصائية تتزامن الحروف تقوم بالعمل.

هاريس مقابل BPE

الخاصية	هاريس	BPE
معيار الحدود	ارتفاع تنوع اللاحقين	تكرار الزوج
الشكل اللغوي	محاذاة المورفيم (بادئة، جذر، خاتمة)	أزواج بايت متكررة
مثال: `unbelievably`	`un` + `believ` + `abl` + `y`	`unb` + `eli` + `eva` + `bly`
التعميم	قوي (جذر + لاحق يعاود التركيب)	أضعف (الأزواج لا تحتاج محاذاة)

كلاهما ينتج قطعًا فرعية للكلمات. قطع هاريس تميل إلى المحاذاة مع ما يسميه اللغوي مورفيم: أصغر وحدة معنوية. قطع BPE تحسن الضغط: أكثر زوج بايت تكرارًا يتم دمجه، بغض النظر عن المعنى.

تقسيم كلمة

طبّق التفكير على طريقة هاريس على الكلمة `replayed`. اقترح ثلاثة تقسيمات مورفيمية & برر كل واحدة بعبارة واحدة (ما دوره: بادئة، جذر، أو خاتمة).

ثلاث شرائح مفردات

تشريح مفردات ANDREA

تقسيم Harris ينتج مفردات بثلاث شرائح:

الشريحة 1: 256 بايت أساسي. كل بايت UTF-8 ممكن (0x00 إلى 0xFF) يحصل على معرف رمزي خاص به. شبكة أمان: أي حرف يحتويه النص، يمكن للـtokenizer تمثيله كتسلسل من البايتات. لا يتم تشغيل <UNK> أبداً.

الشريحة 2: N قطعة مورفيمية. قطع شائعة تم اكتشافها من خلال التحليل التوزيعي. ANDREA-12M مدربة N = 4096؛ ANDREA-120M مدربة N = 8192. كل قطعة تضغط سلسلة بايتات متكررة متعددة إلى رمز واحد.

الشريحة 3: 1 رمز BOS. علامة خاصة توضع في بداية كل تسلسل تدريبي. تسمح للنموذج بتعلم 'هذه الموضع ليس لها ماضٍ'. ANDREA-12M وANDREA-120M كلاهما يحجزان معرفًا واحدًا بالضبط لـBOS.

أحجام المفردات

النموذج	البايتات الأساسية	قطع المورفيم (N)	BOS	حجم المفردات
ANDREA-12M	256	4096	1	4353
ANDREA-120M	256	8192	1	8449

256 + N + 1 = حجم المفردات. بسيط. قابل للتكرار. مفتوح.

لماذا يهم لوحة البايت

يضمن التراجع إلى البايت التغطية. إذا واجه نموذج 日本語 ولم يكن لدى الـtokenizer مورفيمات يابانية، فإن البايتات الفردية UTF-8 تحمل تسلسلاً عبره. يتدرب النموذج على البايتات؛ تعتمد الجودة على النصوص النادرة على السعة والتعرض، لكن لا يتعطل الـtokenizer أبداً بسبب الإدخال.

احسب حجم المفردات

ANDREA-480M (نموذج ثالث في عائلة، النشاط المستقبلي 24 يغطيه) يخطط لتدريب tokenizer Harris مع N = 16,384 شريحة على corpus أكبر. احسب حجم مفرداته. أظهر صيغة. ثم شرح في جملة واحدة لماذا تبقى شريحة البايت عند 256 حتى مع نمو N.

بداية التسلسل

لماذا تحتاج التسلسل إلى علامة

محول يعتمد على المفكك فقط يتنبأ بالرمز التالي من السياق السابق. الموضع 0 ليس لديه سياق سابق. بدون علامة، يجلس الموضع 0 في ثغرة منطقية: لا يوجد شيء للنموذج للانتباه إليه.

BOS يحل الثغرة. رمز خاص واحد (ID = 256 + N) يجلس في بداية كل تسلسل أثناء التدريب. يتعلم النموذج:

- 'عندما ترى BOS، تنبأ بالرمز الأول المحتمل للنص الطبيعي.'

- 'عندما ترى BOS متبوعًا بكلمة، تلك الكلمة هي بداية تسلسل، وليست استمرارًا.'

رمز واحد، استخدامات كثيرة

يظهر BOS في:

- وقت التدريب: يُضاف في البداية إلى كل قطعة نص تُدخل إلى النموذج.

- وقت الاستدلال: يُضاف في البداية إلى الاستعلام ليراه النموذج كإشارة 'بداية جديدة' مألوفة.

- تحديد الحدود: في بعض خطوط المعالجة، يفصل بين الوثائق المجمعة.

يحجز ANDREA معرفًا واحدًا فقط لـ BOS. لا EOS، لا PAD، لا رموز خاصة إضافية خارج ما تحتاجه مفردات. البساطة تبقى قيمة permacomputer دائمة: كل رمز يستحق مكانه.

تكملة النشاط 3

يغطي النشاط 3 (grow_a_language_model_tokenizer_diet) ما يحدث عندما يكون N كبيرًا جدًا أو يختلف كوربوس المفردات عن كوربوس التدريب. أضاع ANDREA-12M 63.6% من مفرداته؛ أصلح ANDREA-120M ذلك. اقرأ المزيد.

تسويات BOS-فقط

فكر في خيار تصميم يتخذه ANDREA: رمز خاص واحد فقط (BOS)، لا EOS، لا PAD. سمِّ تسوية واحدة يخلقها هذا. يمكن أن تكون التسوية ميزة (محرك أبسط، فتحات أقل مضيعة) أو قيد (بعض حيل التدريب تحتاج رموزًا إضافية). جملة واحدة كافية.