un — ენის მოდელის გაზრდა: კურიკულუმის გახურება [DESCRIPTION /]

un

სტუმარი

1 / ?

უკან გაკვეთილებზე

ნაბიჯები 0-20K: შეზღუდული დიეტა

ორი ფაზა, ერთი გაშვება

v2 ხანძარსაყრელის კურიკულუმი მუშაობს ორ ფაზაში ერთი 200K-ნაბიჯიანი ტრენინგის გაშვებაში:

ფაზა A (ნაბიჯები 0-დან 20K-მდე). ბანდიტი იძPulls მხოლოდ 7 ჩატისა და პროზის წყაროდან:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

B ფაზა (ნაბიჯები 20K-დან 200K-მდე). Bandit იღებს სრული მიქსიდან, ყველა 16 წყაროდან, მათ შორის ნიმუში (dictionary), ტექნიკური (repo-docs, repo-commits), & სოციალური (irc, unweapon).

Curriculum warmup timeline

რას იზიარებს შეზღუდული დიეტა

შეკრულების შვიდი წყაროდან ექვსი საუბრულია. ერთი (gutenberg) პარაგრაფის პროზაა. ერთად ისინი იზიარებენ საერთო ფორმას: შეტრიალების სტრუქტურა (პრომპტი შემდეგ პასუხი) ან ნარატიული ნაკადი. ლექსიკის განაწილება 7 წყაროზე დაახლოებით ნორმალური ინგლისურია; კროს-ენტროპიის სამიზნეები რჩება სტაბილურ დიაპაზონში; გრადიენტის მაგნიტუდები რჩება პროგნოზირებადი.

კონფიგურაციის ველი

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

აღმოაჩინე გათბობის ფაზე

სწავლების გაშვება გაეწია 18,400 ნაბიჯამდე. ხედვის გარეშე bandit-ის მდგომარეობას, შეძლო თუ არა მოდელმა `dictionary`-დან ან `repo-docs`-დან შეწევა? ახსენით რატომ კი ან რატომ არა და მიუთითეთ კონფიგურაციის მნიშვნელობა, რომელიც ამას განსაზღვრავს.

როგორი იყო v1 Warmup-ის გარეშე

v1: ყველა 16 წყარო ნაბიჯიდან 0

პირველი ANDREA-120M სწავლების გაშვება (მარტი-აპრილი 2026) აქტიურობდა სრულ firehose-ს ნაბიჯზე 0: 16 წყარო, მათ შორის dictionary (88K სიტყვის განმარტებები > define X / < X is... ფორმატში), repo-docs (markdown დოკუმენტაცია), repo-docstrings (Python docstrings), & repo-commits (git commit შეტყობინებები chat & prose-ის გვერდით).

რა მოხდა არასწორად

ნულიდან ინიციალიზებული 120M მოდელი შემთხვევითი წონებით ვერ შეძლებს 16 განსხვავებული განაწილების ერთდროულ მოდელირებას. სტრუქტურულად განსხვავებული წყაროდან მიღებული თითოეული ბატჩი განსხვავებულ გრადიენტის მიმართულებას ქმნის. წყაროს ყოველ 7-42 ნაბიჯზე შეცვლა გრადიენტის მაღლობებს უშფოთავად რყევდა; მოდელი ატრაქტორებს შორის ხტოდა უფრო სწრაფად, ვიდრე წარმოდგენების ფორმირება შეეძლო.

80K ნაბიჯზე, v1 გამოიმუშავა: region region region region region region region. Hermes3-general მასწავლებლის დისტილაციის ჯილდოები (საშუალო 340-453) განმეორებადი სიის სტრუქტურის წყაროებს ყველაზე მაღალ ქულას ანიჭებდა კროს-ენტროპიაზე, რასაც ბანდიტი თხრობდა როგორც 'ეს მკლავები მარტივია.' ბანდიტმა მოდელს კიდევ მეტი გაუწოდა იმისა, რამაც მისი დეგენერაცია გამოიწვია.

რატომ ეხმარება შეზღუდვა 7 წყაროზე

1. განაწილების მსგავსება. ყველა 7 warmup წყარო მსგავსი ფორმის ტექსტს გამოიმუშავებს (გარდამტეხი სტრუქტურა ან ნარატივი). გრადიენტის მიმართულებები ბატჩებს შორის დაახლოებით ერთმნიშვნელოვნად რჩება.

2. საწყისი თანმიმდევრულობა. მოდელი სწავლობს ლექსიკის სიხშირეს, სინტაქსურ პატერნებს და ორის მიმართულებას, სანამ შეხვდება განმარტებით სიებს, კოდს ან git შეტყობინებებს.

3. სტაბილური კურიკულუმი. ბანდიტის ჯილდოს სიგნალები 7 ჩატ/პროზის წყაროდან რჩება შესადარებელ დიაპაზონში; UCB1 შერჩევა არ იჭრება ერთი ანომალიურად მაღალი ჯილდოს მქონე წყაროს მიერ.

როდესაც ფაზა B აქტიურდება

20K ნაბიჯზე მოდელმა გამოიწო ~40-50 ნიმუში (ერთი ყოველ 100 ნაბიჯზე), ნიმუშებში ჩანს თანმიმდევრული ინგლისური და შექმნილია სტაბილური ბიგრამისა და ტრიგრამის განაწილება. ახლა ის შეძლებს შეის/absორბოს ლექსიკონის > define X / < X is... პატერნს, repo-docs-ის კოდის ბლოკებს და git კომიტის სათაურებს, არ დაკარგავს ჩატის სტრუქტურას ქვეშ.

v1-ის შეცდომის დიაგნოზი

ნულიდან ინიციალიზებული 120M ტრანსფორმერი ვარჯიშობს 16 სტრუქტურულად განსხვავებულ წყაროზე ნაბიჯი 0-დან. 80K ნაბიჯამდე ნიმუშები კითხვადია `region region region region region`. დააკავშირე no-warmup დიზაინის არჩევანი ამ კონკრეტულ შეცდომის რეჟიმთან: დაასახელე მექანიზმი, რომლითაც 16 წყარო ნაბიჯი 0-ზე იწვევს მოდელის ჩამონგრევას ერთი ტოკენის გამეორებაში. ერთი ან ორი წინადადება.

v3 Polish აყენებს curriculum_warmup_steps = 0

სხვა საწყისი წერტილი

v3 polish-ის პივოტი 112,619 ნაბიჯზე განაგრძო ტრენინგი step_112600.bin-დან curriculum_warmup_steps=0-ით. პირველ შეხედვით ეს წინააღმდეგობის მსგავსია: თუ warmup დაეხმარა v2-ს, რატომ გამორთო ის polish ფაზაში?

იმიტომ, რომ მოდელმა უკვე ისწავლო კოჰერენტობა

ფაზა A ყიდის დროს ახალდაწყებულ მოდელს ლექსიკის სიხშირის, მოსაუბრე ტურნირის სტრუქტურისა და პარაგრაფის თანმიმდევრულობის შესაგნებლობისთვის. 112K ნაბიჯზე მოდელმა უკვე გააკეთა ყველაფერი. 112K-ზე შეწყვეტილი შემოწმებები აჩვენებდა თანმიმდევრულ საუბრის ტურნებს, ჰაიკუს, კითხვა-პასუხს და დიალოგს. ორიგინალური warmup-ის მიზანი (ჰგავნის ქაოსისგან მყიფე ახალი მოდელის დაცვა) აღარ ვრცელდება.

Polish ხანდახანს ვარიაციას აკეთებს, არ ხელახლა არ იწყებს

Polish არის კურიკულუმის პერტურბაცია, არა ახალი გაშვება. იგივე 200K სამიზნე, იგივე არქიტექტურა, იგივე ოპტიმიზატორის მდგომარეობა, იგივე ზარალის ისტორია. რა იცვლება: წყაროს ზღვრები და ფლორები ხანდახანს ვარიაციას ექცევა საუბრის უპირატესობისთვის ცოდნის შეტევებზე. მოდელმა უკვე თანმიმდევრულობა მოიპოვა, ყველა აქტიური წყარო ხელმისაწვდომია 112,619 ნაბიჯიდან.

შეჯამების ცხრილი

ფაზა	curriculum_warmup_steps	რატომ
v1	(არ არის)	ყველა 16 წყარო ნაბიჯიდან 0 -> კოლაფსი
v2 (ნაბიჯები 0-200K)	20,000	ახალად ინიციალიზებული წონების დაცვა გრადიენტის ქაოსისგან
v3 base (ნაბიჯები 0-112K)	20,000	იგივე დაცვა როგორც v2
v3 polish (ნაბიჯები 112K-200K)	0	მოდელი უკვე თანმიმდევრულია; მყიფე-ინიციალიზაციის რეჟიმი, რომელსაც warmup იცავს, გასულია

რატომ არის უსაფრთხო Warmup-ის გამორთვა Polish-ის დროს

არგუმენტირე (2-3 წინადადებაში) რატომ **არ** ქმნის v3 polish-ის გარდამტეხზე curriculum_warmup_steps = 0-ის დაყენება v1-ის კოლაფსს, მიუხედავად იმისა, რომ ორივე გაშვებაში 'ყველა წყარო აქტიურია მიმდინარე ნაბიჯიდან'. მიუთითე მოდელის მდგომარეობაზე ნაბიჯ 112K-ზე.