un — Bir Dil Modeli Yetiştirin: Müfredat Isınma [DESCRIPTION /]

un

konuk

1 / ?

derslere geri dön

Adımlar 0-20K: Kısıtlı Diyet

İki Aşama, Tek Çalıştırma

v2 yangın hortumu müfredatı, tek bir 200K-adımlık eğitim çalıştırmasında iki aşamada çalışır:

A Aşaması (adımlar 0 ila 20K). Bandit sadece 7 sohbet & düzyazı kaynağından çeker:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

B Aşaması (20K ile 200K adımlar arası). Bandit, tam karışımdan çeker, 16 kaynaktan tamamı, referans (dictionary), teknik (repo-docs, repo-commits) ve sosyal (irc, unweapon) dahil.

Curriculum warmup timeline

Kısıtlı Diyetin Paylaştığı Şeyler

Yedi ısınma kaynağından altısı konuşma tarzında. Biri (gutenberg) paragraf düzyazı. Birlikte ortak bir şekle sahipler: dönüş yapısı (istek sonra yanıt) veya anlatı akışı. 7 kaynaktaki kelime dağılımı kabaca normal İngilizce gibi görünüyor; çapraz-entropi hedefleri istikrarlı bir aralıkta kalıyor; gradyan büyüklükleri öngörülebilir kalıyor.

Yapılandırma Alanı

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

Warmup Aşamasını Tanımla

Bir eğitim çalışması 18.400 adım çalıştı. Bantit durumuna bakmadan, model `dictionary` veya `repo-docs`'tan örnekleme yapmış olabilir mi? Neden evet veya hayır olduğunu açıklayın ve bunu belirleyen yapılandırma değerini belirtin.

Isınmasız v1 Nasıl Görünüyordu

v1: Adım 0'dan Tüm 16 Kaynak

İlk ANDREA-120M eğitim çalışması (Mart-Nisan 2026), adım 0'da tam hortumu etkinleştirdi: 16 kaynak, dictionary (> define X / < X is... şeklinde 88K kelime tanımı), repo-docs (markdown dokümantasyon), repo-docstrings (Python docstring'leri) ve repo-commits (git commit mesajları, sohbet & proza ile birlikte) dahil.

Ne Yanlış Gitti

Rastgele ağırlıklarla yeni başlatılmış 120M model, aynı anda 16 farklı dağılımı modelleyemez. Yapısal olarak farklı bir kaynaktan gelen her batch, farklı bir gradient yönü üretir. Kaynak her 7-42 adımda değiştiğinde gradient büyüklükleri vahşice dalgalanır; model, temsiller oluşturamadığı kadar hızlı bir şekilde çekiciler arasında zıplar.

80K adıma kadar, v1 şu şekilde üretti: region region region region region region region. Hermes3-general öğretmen damıtma ödülleri (ortalama 340-453), tekrarlayan liste yapısındaki kaynakların çapraz entropide en yüksek puanı almasını sağladı, ki bantit bunu 'bu kollar kolay' olarak yorumladı. Bantit, modeli bozan şeyi daha fazla besledi.

7 Kaynağa Sınırlamanın Neden Yardımcı Olduğu

1. Dağılım benzerliği. Isınma için kullanılan 7 kaynak hepsi benzer şekilli metin üretir (dönüş yapısı veya anlatı). Batch'ler arasındaki gradient yönleri kabaca hizalı kalır.

2. Öncelikle tutarlılık. Model, tanım listeleri, kod veya git mesajlarıyla karşılaşmadan önce kelime sıklığı, sentaktik kalıplar ve dönüş yapısını öğrenir.

3. Kararlı müfredat. 7 sohbet/proz kaynak genelinde bandit ödül sinyalleri karşılaştırılabilir bir aralıkta kalır; UCB1 seçimi tek bir anormal derecede ödüllendirici kaynak tarafından ele geçirilmez.

Faz B Ne Zaman Aktifleşir

20K. adımda, model ~40-50 örnek üretmiştir (100 adımda bir), örneklerde tutarlı İngilizce gösterir ve kararlı bigram & trigram dağılımları oluşturmuştur. Artık sözlüğün > define X / < X is... kalıbını, repo-dökümanlarının kod bloklarını ve git commit başlıklarını, altındaki sohbet yapısını kaybetmeden emebilir.

v1'in Başarısızlığını Teşhis Et

Yeni başlatılmış bir 120M transformer, 0. adımdan itibaren 16 yapısal olarak farklı kaynaktan eğitilir. 80K. adıma kadar örnekler `region region region region region` okur. Isınma olmayan tasarım seçimini bu belirli başarısızlık moduna bağlayın: 0. adımdaki 16 kaynağın modeli tek-token tekrarı çöküşüne sürükleyen mekanizmayı adlandırın. Bir veya iki cümle.

v3 Polish curriculum_warmup_steps = 0 olarak ayarlar

Farklı Bir Başlangıç Noktası

v3 polish pivot adım 112,619'da step_112600.bin'den curriculum_warmup_steps 0 olarak ayarlanmış şekilde eğitimi sürdürdü. İlk bakışta bu bir çelişki gibi görünüyor: eğer ısınma v2'ye yardımcı olduysa, neden polish aşamasında devre dışı bırakılsın?

Çünkü Model Zaten Tutarlılığı Öğrenmişti

A Fazı, yeni başlatılmış bir modelin kelime frekansını, dönüş yapısını ve paragraf tutarlılığını öğrenmesi için zaman kazandırır. 112K adımına gelindiğinde model bunu zaten yapmıştır. 112K'daki örnek denetimler, tutarlı konuşma dönüşleri, haiku, S&A ve diyaloglar gösterdi. Isınmanın orijinal amacı (kırılgan yeni modeli gradyan kaosundan korumak) artık geçerli değil.

Polish Yeniden Ağırlıklandırır, Yeniden Başlatmaz

Polish, bir müfredat bozulmasıdır, yeni bir çalıştırma değil. Aynı 200K hedef, aynı mimari, aynı optimizer durumu, aynı kayıp geçmişi. Değişen: kaynak tavanları ve tabanları, bilgi kolları yerine konuşmayı tercih edecek şekilde yeniden ağırlıklandırılır. Model zaten tutarlı olduğundan, 112,619. adımdan itibaren her aktif kaynak adil oyun.

Özet Tablo

Faz	curriculum_warmup_steps	Neden
v1	(yok)	Adım 0'dan 16 kaynak -> çökert
v2 (adımlar 0-200K)	20.000	Yeni başlatılan ağırlıkları gradyan kaosundan koru
v3 taban (adımlar 0-112K)	20.000	v2 ile aynı koruma
v3 cilalama (adımlar 112K-200K)	0	Model zaten tutarlı; korunması gereken kırılgan başlatma rejimi yok

Cilalamada Isınmayı Devre Dışı Bırakmanın Neden Güvenli Olduğu

Müfredat_ısınma_adımları = 0'ı v3 cilalama dönüm noktasında ayarlamanın, her iki çalışmanın da 'mevcut adımdan itibaren tüm kaynaklar aktif' özelliği taşımasına rağmen v1 çöküşünü yeniden yaratmadığını (2-3 cümlede) savunun. Adım 112K'daki model durumuna atıfta bulunun.