Adımlar 0-20K: Kısıtlı Diyet
İki Aşama, Tek Çalıştırma
v2 yangın hortumu müfredatı, tek bir 200K-adımlık eğitim çalıştırmasında iki aşamada çalışır:
A Aşaması (adımlar 0 ila 20K). Bandit sadece 7 sohbet & düzyazı kaynağından çeker:
- hermes3-general
- hermes3-creative
- hermes3-roleplay
- chat
- smoltalk
- oasst
- gutenberg
B Aşaması (20K ile 200K adımlar arası). Bandit, tam karışımdan çeker, 16 kaynaktan tamamı, referans (dictionary), teknik (repo-docs, repo-commits) ve sosyal (irc, unweapon) dahil.
Kısıtlı Diyetin Paylaştığı Şeyler
Yedi ısınma kaynağından altısı konuşma tarzında. Biri (gutenberg) paragraf düzyazı. Birlikte ortak bir şekle sahipler: dönüş yapısı (istek sonra yanıt) veya anlatı akışı. 7 kaynaktaki kelime dağılımı kabaca normal İngilizce gibi görünüyor; çapraz-entropi hedefleri istikrarlı bir aralıkta kalıyor; gradyan büyüklükleri öngörülebilir kalıyor.
Yapılandırma Alanı
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
Warmup Aşamasını Tanımla
Isınmasız v1 Nasıl Görünüyordu
v1: Adım 0'dan Tüm 16 Kaynak
İlk ANDREA-120M eğitim çalışması (Mart-Nisan 2026), adım 0'da tam hortumu etkinleştirdi: 16 kaynak, dictionary (> define X / < X is... şeklinde 88K kelime tanımı), repo-docs (markdown dokümantasyon), repo-docstrings (Python docstring'leri) ve repo-commits (git commit mesajları, sohbet & proza ile birlikte) dahil.
Ne Yanlış Gitti
Rastgele ağırlıklarla yeni başlatılmış 120M model, aynı anda 16 farklı dağılımı modelleyemez. Yapısal olarak farklı bir kaynaktan gelen her batch, farklı bir gradient yönü üretir. Kaynak her 7-42 adımda değiştiğinde gradient büyüklükleri vahşice dalgalanır; model, temsiller oluşturamadığı kadar hızlı bir şekilde çekiciler arasında zıplar.
80K adıma kadar, v1 şu şekilde üretti: region region region region region region region. Hermes3-general öğretmen damıtma ödülleri (ortalama 340-453), tekrarlayan liste yapısındaki kaynakların çapraz entropide en yüksek puanı almasını sağladı, ki bantit bunu 'bu kollar kolay' olarak yorumladı. Bantit, modeli bozan şeyi daha fazla besledi.
7 Kaynağa Sınırlamanın Neden Yardımcı Olduğu
1. Dağılım benzerliği. Isınma için kullanılan 7 kaynak hepsi benzer şekilli metin üretir (dönüş yapısı veya anlatı). Batch'ler arasındaki gradient yönleri kabaca hizalı kalır.
2. Öncelikle tutarlılık. Model, tanım listeleri, kod veya git mesajlarıyla karşılaşmadan önce kelime sıklığı, sentaktik kalıplar ve dönüş yapısını öğrenir.
3. Kararlı müfredat. 7 sohbet/proz kaynak genelinde bandit ödül sinyalleri karşılaştırılabilir bir aralıkta kalır; UCB1 seçimi tek bir anormal derecede ödüllendirici kaynak tarafından ele geçirilmez.
Faz B Ne Zaman Aktifleşir
20K. adımda, model ~40-50 örnek üretmiştir (100 adımda bir), örneklerde tutarlı İngilizce gösterir ve kararlı bigram & trigram dağılımları oluşturmuştur. Artık sözlüğün > define X / < X is... kalıbını, repo-dökümanlarının kod bloklarını ve git commit başlıklarını, altındaki sohbet yapısını kaybetmeden emebilir.
v1'in Başarısızlığını Teşhis Et
v3 Polish curriculum_warmup_steps = 0 olarak ayarlar
Farklı Bir Başlangıç Noktası
v3 polish pivot adım 112,619'da step_112600.bin'den curriculum_warmup_steps 0 olarak ayarlanmış şekilde eğitimi sürdürdü. İlk bakışta bu bir çelişki gibi görünüyor: eğer ısınma v2'ye yardımcı olduysa, neden polish aşamasında devre dışı bırakılsın?
Çünkü Model Zaten Tutarlılığı Öğrenmişti
A Fazı, yeni başlatılmış bir modelin kelime frekansını, dönüş yapısını ve paragraf tutarlılığını öğrenmesi için zaman kazandırır. 112K adımına gelindiğinde model bunu zaten yapmıştır. 112K'daki örnek denetimler, tutarlı konuşma dönüşleri, haiku, S&A ve diyaloglar gösterdi. Isınmanın orijinal amacı (kırılgan yeni modeli gradyan kaosundan korumak) artık geçerli değil.
Polish Yeniden Ağırlıklandırır, Yeniden Başlatmaz
Polish, bir müfredat bozulmasıdır, yeni bir çalıştırma değil. Aynı 200K hedef, aynı mimari, aynı optimizer durumu, aynı kayıp geçmişi. Değişen: kaynak tavanları ve tabanları, bilgi kolları yerine konuşmayı tercih edecek şekilde yeniden ağırlıklandırılır. Model zaten tutarlı olduğundan, 112,619. adımdan itibaren her aktif kaynak adil oyun.
Özet Tablo
| Faz | curriculum_warmup_steps | Neden |
|---|---|---|
| v1 | (yok) | Adım 0'dan 16 kaynak -> çökert |
| v2 (adımlar 0-200K) | 20.000 | Yeni başlatılan ağırlıkları gradyan kaosundan koru |
| v3 taban (adımlar 0-112K) | 20.000 | v2 ile aynı koruma |
| v3 cilalama (adımlar 112K-200K) | 0 | Model zaten tutarlı; korunması gereken kırılgan başlatma rejimi yok |