un — ენის მოდელის გაზრდა: ჰარისის მორფემული ტოკენიზატორი [DESCRIPTION /]

un

სტუმარი

1 / ?

სიტყვები რიცხვებად

თარგმანი საზღვარზე

ენის მოდელი არასდროს ხედავს ტექსტს. ის ხედავს მთელ რიცხვებს. ტოკენიზატორი მდებარეობს საზღვრის გადასალახად: ადამიანის სიტყვები შედის, მთელი რიცხვების ID-ები გამოდის. გენერაცია აბრუნებს ნაკადს: მთელი რიცხვების ID-ები ბრუნდება, ტოკენიზატორი ქმნის ტექსტს.

სამი დავალება:

1. სეგმენტაცია. ხაზის დაყოფა ნაწილებად (ტოკენებად).

2. ნაწარმოები. თითოეულ ნაწილს მიენიჭოს უნიკალური მთელი რიცხვის ID ფიქსირებული ლექსიკონიდან.

3. შემობრუნება. ID-ებიდან ტექსტის აღდგენა გენერაციის დროს.

რატომ ნაწილები, არა მთლიანი სიტყვები

მთლიანი სიტყვის ლექსიკონი ამოფრქვევას იწყებს. ინგლისური მარტო ასობით ათას ფორმას შეიცავს. გაუარესებულია, მოდელი, რომელიც მთლიან სიტყვებზეა გაწვრთნილი, ვერ უმკლავდება შეცდომას, ახალ სახელს ან უცხო ფრაზას: ნებისმიერი ნანახი სიტყვა ერთ <UNK> ადგილზე მიდის.

სუბვორდის ტოკენიზაცია ამას წყვეტს. საერთო ნაწილების ლექსიკა შედგება ნებისმიერ სიტყვად, მათ შორის მათში, რომლებიც ტრენინგის დროს არასდროს ყოფილა ნანახი. ორი სტრატეგია დომინირებს: BPE (byte pair encoding) და distributional segmentation. ANDREA ირჩევს მეორე სტრატეგიას.

Harris vs BPE

რატომ სუბვორდი

მთლიანი-სიტყვის ტოკენიზატორი ჩაიშალება იშვიათ სიტყვაზე `proporian`-ზე (სიტყვა რომელიც ANDREA-12M-მ გამოიყენა ნაბიჯზე 43,100). დაასახელე ორი განსხვავებული პრობლემა რომელსაც სუბვორდის ტოკენიზატორი (BPE ან Harris) თავს არიდებს, მთლიანი-სიტყვის ტოკენიზატორი ვერ.

სად ირღება სიტყვა

ზელიგ ჰარისი, 1955

ლინგვისტმა ზელიგ ჰარისმა შენიშნა ერთი რამ. სიტყვის შიგნით, მოცემული ასოების თანმიმდევრობის შემდეგ მომდევნო უნიკალური ასოების რაოდენობა მკვეთრად იცვლება. un-ის შემდეგ შეგიძლიათ იპოვოთ ათეულობით ასო: a, b, c, d, e ... unbel-ის შემდეგ მხოლოდ მცირე ნაკრები მოდის: i (შემდეგ ievable).

მომდევნო მრავალფეროვნების მკვეთრი ზრდა აღნიშნავს მორფემის საზღვარს. un-ის (პრეფიქსის) შემდეგ მრავალფეროვნება იზრდება, რადგან ბევრი ფესვი შეიძლება მოყვეს. ფესვის შიგნით, როგორიცაა believ, მრავალფეროვნება დაბალი რჩება, რადგან ასოები ერთმანეთს პროგნოზირებენ. მორფემებს შორის გარდამტეხს, მრავალფეროვნება კვლავ იზრდება.

მრავალფეროვნების მწვერვალებიდან სეგმენტებამდე

გაუშვით ეს დეტექტორი ტრენინგის კორპუსზე. ყველა სიტყვა მოუტანს სტატისტურ მტკიცებულებას. ტოკენიზატორი აგროვებს მაღალი სიხშირის სეგმენტებს, რომლებიც ხშირად მეორედ გვხვდება მორფემის ფორმის საზღვრებზე: un, re, pre, believ, know, ing, able, ly, tion, ed.

არანაირი ეტიკეტი. ლინგვისტი არ ასვამს ხელით მორფემებს ეტიკეტებს. ასოების ერთად გამოჩენის სტატისტიკა ასრულებს ამ საქმეს.

Harris vs BPE

თვისება	Harris	BPE
საზღვრის კრიტერიუმი	მემკვიდრე ვარიეტის პიკი	წყვილის სიხშირე
ლინგვისტური ფორმა	მორფემასთან შესაბამისი (პრეფიქსი, ფესვი, სუფიქსი)	ხშირი ბაიტების წყვილები
მაგალითი: `unbelievably`	`un` + `believ` + `abl` + `y`	`unb` + `eli` + `eva` + `bly`
გენერალიზაცია	ძლიერი (ფესვი + აფიქსი რეკომბინირდება)	სუსტი (წყვილები არ მოითხოვენ შესაბამისობას)

ორივე ქმნის ქვーワრდულ ნაწილებს. ჰარისის ნაწილები ჩვეულებრივ შეესაბამება იმას, რასაც ლინგვისტი მორფემად უწოდებს: ყველაზე მცირე მნიშვნელოვან ერთეულს. BPE ნაწილები ოპტიმიზებენ კომპრესიას: ყველაზე ხშირი ბაიტების წყვილი გაერთიანდება, მნიშვნელობის გარეშე.

სიტყვის სეგმენტაცია

გამოიყენეთ ჰარისის სტილის მსჯელობა სიტყვა `replayed`-ზე. შესთავაზეთ სამი მორფემის სეგმენტი და გაამართლეთ თითოეული ერთი ფრაზით (რა როლს თამაშობს: პრეფიქსი, ფესვი თუ სუფიქსი).

სამი ლექსიკის ფილა

ANDREA ლექსიკის ანატომია

Harris-ის ტოკენიზაცია ქმნის ლექსიკას სამი ფილით:

ფილა 1: 256 ბაზისური ბაიტი. ყველა შესაძლო UTF-8 ბაიტს (0x00-დან 0xFF-მდე) აქვს თავისი მარკერის ID. უსაფრთხოების ქსელი: ნებისმიერი სიმბოლო, რომელიც კორპუსშია, ტოკენიზატორი შეუძლია წარმოადგინოს ბაიტების თანმიმდევრობად. <UNK> არასდროს გააქტიურდება.

ფილა 2: N მორფემის სეგმენტი. გავრცელებული ნაწილები, რომლებიც აღმოჩენილია განაწილების ანალიზით. ANDREA-12M-ში N = 4096; ANDREA-120M-ში N = 8192. თითოეული სეგმენტი აკომპრესებს ხშირად მიმეორებად მრავალბაიტიან სტრიქონს ერთ ტოკენში.

ფილა 3: 1 BOS ტოკენი. სპეციალური მარკერი, რომელიც განთავსებულია ყველა სასწავლო თანმიმდევრობის დასაწყისში. საშუალებას აძლევს მოდელს ისწავლოს 'ამ პოზიციას წარსული არ აქვს'. ANDREA-12M-სა და ANDREA-120M-ს ორივეს ზუსტად ერთი ID რეზერვირებული აქვს BOS-ისთვის.

ლექსიკის ზომები

მოდელი	ძირითადი ბაიტები	მორფემის სეგმენტები (N)	BOS	ლექსიკის ზომა
ANDREA-12M	256	4096	1	4353
ANDREA-120M	256	8192	1	8449

256 + N + 1 = ლექსიკის ზომა. მარტივი. გამეორებადი. ღია.

რატომ არის მნიშვნელოვანი ბაიტის ფილა

ბაიტის ფოლბეკი გარანტირებულად უზრუნველყოფს გაშუქებას. თუ მოდელი ხვდება 日本語-ს და ტოკენიზატორს არ აქვს იაპონური მორფემები, ინდივიდუალური UTF-8 ბაიტები გადასცემენ სეკვენციას. მოდელი ვარჯიშობს ბაიტებზე; იშვიათი სკრიპტების ხარისხი დამოკიდებულია შესაძლებლობებსა და გამოცდილებაზე, მაგრამ შეყვანა არასდროს დააღწევს ტოკენიზატორს.

ლექსიკის გამოთვლა

ANDREA-480M (ოჯახის მესამე მოდელი, მომავალი აქტივობა 24 მოიცავს მას) გეგმავს Harris ტოკენიზატორის ვარჯიშს N = 16,384 სეგმენტით უფრო დიდ კორპუსზე. გამოთვალეთ მისი ლექსიკის ზომა. აჩვენეთ ფორმულა. შემდეგ ერთ წინადადებაში ახსენით, რატომ რჩება ბაიტის ფილა 256-ზე, როდესაც N იზრდება.

სეკვენციის დასაწყისი

რატომ სჭირდება თანმიმდევრობას მარკერი

დეკოდერ-მხოლოდ ტრანსფორმერი იწინასწარმეტყველებს შემდეგ ტოკენს წინა კონტექსტიდან. პოზიცია 0 არ აქვს წინა კონტექსტი. მარკერის გარეშე, პოზიცია 0 ლოგიკურ ხარვეზშია: მოდელს არაფერი აქვს ყურადღების მისაქცევი.

BOS ასწორებს ხარვეზს. ერთი სპეციალური ტოკენი (ID = 256 + N) დგას ყველა თანმიმდევრობის დასაწყისში ტრენინგის დროს. მოდელი სწავლობს:

- 'როდესაც BOS-ს ხედავ, იწინასწარმეტყველე ბუნებრივი ტექსტის სავარაუდო პირველი ტოკენი.'

- 'როდესაც BOS-ს სიტყვა მოყვება, ეს სიტყვა თანმიმდევრობის დასაწყისია, არა გაგრძელება.'

ერთი ტოკენი, მრავალი გამოყენება

BOS გამოჩნდება:

- სწავლის დროს: მოდელში შეყვანილი ყველა ტექსტის ნაწილის წინ მიმატებულია.

- ინფერენსის დროს: მოდელს ნაცნობი „ახალი დაწყება“ სიგნალის ხილვა სჭირდება პრომპტის წინ მიმატებული.

- საზღვრის მონიშვნა: ზოგიერთ pipeline-ში კონკატენირებული დოკუმენტების შორის გამამხდარი.

ANDREA რეზერვირებულია ზუსტად ერთი ID BOS-ისთვის. არა EOS, არა PAD, არა სპეციალური ტოკენები იმაზე მეტი, ვიდრე ლექსიკონს სჭირდება. მარტივობა რჩება პერმაკომპიუტერის ღირებულებად: ყველა ტოკენი იღებს თავის ადგილს.

Activity 3 Continues

Activity 3 (grow_a_language_model_tokenizer_diet) მოიცავს იმას, რა ხდება, როდესაც N ძალიან დიდია ან ტოკენიზატორის კორპუსი განსხვავდება ტრენინგის კორპუსისგან. ANDREA-12M დაკარგა ვოკაბულარის 63.6%; ANDREA-120M გამოასწორა ეს. წაიკითხე შემდგომ.

BOS-Only Tradeoffs

გაანალიზე ANDREA-ს დიზაინის არჩევანი: მხოლოდ ერთი სპეციალური ტოკენი (BOS), არა EOS, არა PAD. დაასახელე ერთი კომპრომისი, რომელსაც ეს ქმნის. კომპრომისი შეიძლება იყოს სარგებელი (მარტივი ძრავა, ნაკლები დაკარგული ადგილები) ან შეზღუდვა (ზოგიერთი ტრენინგის ტრიუკი საჭიროებს დამატებით ტოკენებს). ერთი წინადადება საკმარისია.