un — Bir Dil Modeli Yetiştirin: microGPT'ten ANDREA-120M'e [DESCRIPTION /]

un

konuk

1 / ?

derslere geri dön

On Altı Günlük region region region

Sonlanan Çalıştırma

ANDREA-120M v1 2026-03-22'de başlatıldı & 200.000 planlanan adımın 165.000'inde 2026-04-15'te sonlandırıldı. EMA kayıp minimumu: adım 110K'da 3.23 (rastgele şans: ln(8449) = 9.04, yani kayıp saygın görünüyordu). Örnekler öyle değildi.

Adım 80K: bölge bölge bölge bölge bölge bölge bölge
Adım 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
Adım 140K: oyunlar, oyunlar, oyunlar, oyunlar, oyunlar, oyunlar
Adım 165K: Budy Budy Budy Budy Budy Budy Budy Budy Budy

On altı gün RTX 4090 hesaplama. 130W sürekli. 80K adımdan itibaren çöp.

microGPT'ten ANDREA-120M'ye

Neden microGPT Çalıştı Ama 120M Çalışmadı

ANDREA-12M aynı eğitim vekilini kullandı ve geçti. Daha küçük ağırlık matrisleri gradyan şoklarına karşı daha dayanıklı olduğunu kanıtladı. 120M parametreye ölçeklendirme her kırılganlığı çoğalttı. Beş başarısızlık birleşti.

Beş Birleşen Başarısızlık

Başarısızlık 1: Gradyan kesme yok. Kaynak geçişleri her 7-42 adımda sınırlanmamış gradyan piklerine neden oldu. 120M'de tek bir kötü toplu işlem, modeli optimizatörün kaçamayacağı yozlaşmış bir çekiciye itebilir. 12M modeli hayatta kaldı çünkü daha küçük ağırlıklar şokları tolere etti.

Hata 2: LR ısınması yok. Öğrenme oranı, yeni başlatılmış ağırlıklarda hemen zirveye sıçradı. Hiçbir temsil oluşmadan önce model kötü bir havzaya düştü.

Hata 3: Ağırlık çürümesi yok. Vanilla Adam, 120M kapasitede tekrar desenlerini artıran keyfi büyük ağırlıklara izin verdi.

Hata 4: Örnek kalitesi izleme yok. eval_chat_quality() yalnızca eski çok aşamalı çalıştırıcıya bağlanmıştı; firehose müfredatı onu hiç çağırmadı. Model 80K adımdan itibaren çöp üretti, 10+ gün tespit edilmeden.

Hata 5: Bandit tekrarlayan kaynakları ödüllendirdi. repo-docs, repo-docstrings ve unfirehose-chat en yüksek puanı aldı (ortalama ödüller 340-453) çünkü liste yapılı içerik çapraz entropiyi önemsizce azaltır. Bandit, modeli bozan şeyi daha fazla besledi.

Birikim

Hiçbir tek başarısızlık v1'i tek başına çökertmezdi. Her biri diğerlerini güçlendirdi. Isınma (2) olmadan gradyan şokları (1), keyfi büyük ağırlıklara sahip yeni başlatılmış bir modeli vurarak (3), haydutun ödüllendirdiği tekrarı üretti (5) ve kimse çıktıyı izlemiyordu (4). Beş kesişen neden, bir çöküş.

Neden Beş Başarısızlık, Tek Değil

Beş v1 başarısızlığından İKİSİNİ seçin. Her biri için bir cümlede açıklayın: (a) başarısızlık neydi; (b) hasarı biriktirmek için beş başarısızlıktan bir diğeriyle nasıl özellikle etkileşime girdi.

Her Hata İçin Bir Düzeltme

v2 Yapılandırması (2026-04-15)

Düzeltme	Hedeflenen hata	Uygulama
Gradyan kesme	F1 (kesme yok)	Global L2 norm, max_norm=1.0; üç CUDA çekirdeği (k_grad_norm_partial, k_grad_norm_final, k_grad_scale) Adam öncesi hesaplama ve uygulama yapar
LR ısınma	F2 (ısınma yok)	2000 adımda 0'dan tepeye doğrusal rampa. lr(t) = lr_scheduled(t) * min(1, (t+1)/warmup_steps)
AdamW	F3 (ağırlık çürümesi yok)	Ayrılmış ağırlık çürümesi (Loshchilov & Hutter 2019), weight_decay=0.01. p -= lr (m_hat/(sqrt(v_hat)+eps) + weight_decayp)
Tutarlılık kapılı erken durdurma	F4 (izleme yok)	Her örneği puanla (bigrams/trigram/kelime/karakter çeşitliliği). 5 ardışık örnek 30'un altında puan aldıktan sonra otomatik dur
Müfredat ısınma	F5 (bandit tekrarı yiyor)	İlk 20K adım 7 sohbet/düz yazı kaynağıyla sınırlı; sonrasında firehose aktifleşir; repo-docstring'ler tamamen hariç tutulur

Ayrıca sample_every 200'den 100 adıma düşürüldü (denetim sıklığı iki katına çıktı), & repo-docs limiti 0.5'ten 0.3'e düşürüldü.

Geri-Test

Tutarlılık kapısı v1 üzerinde geri-test edildi: 132K adımda tetiklenir, 3.8 gün hesaplama tasarrufu sağlardı. Kapı tek başına v1'in boşa harcanan hesaplamasını ~%30 kısaltırdı; diğer dört düzeltme v1'in bu kapı tetikleyicisine ulaşmasını engeller.

v2'nin Düzeltmediği Şeyler

Veri kontaminasyonu. v2, hermes3-* kaynaklarını bir LLM öğretmeninden geldikleri için 'ön-temizlenmiş' olarak güvendi. Makefile'daki DEEP_CLEAN_SKIP, hermes3-general, hermes3-creative ve hermes3-roleplay'i make deep-clean işleminden hariç tuttu. unfirehose-chat, ajan sistem prompt'larını kullanıcı turları olarak yakaladı. Bu iki kusur veri katmanında bekliyordu, yüzeye çıkmaya hazır.

Düzeltmeleri Arızalara Eşleştirme

v2'nin üç düzeltmesi, her biri bir v1 arızasına temiz bir şekilde bağlanır. Eşleştirin: (a) gradient clipping (max_norm=1.0); (b) LR warmup (2000-adım lineer ramp); (c) AdamW with weight_decay=0.01. Her biri için, ele aldığı v1 arızasının adını verin ve bu belirli düzeltmenin o arızayı neden tek cümleyle engellediğini belirtin.

Adım 15K: İki Veri Hatası Ortaya Çıkıyor

v2'nin Gördüğü

v2 2026-04-15'te başlatıldı. 200K'nın ~15K adımı itibarıyla (%7.5 tamamlanmış), ajan-harness süslemeleri (○ ●) üreten örnekler ve makale-üstünlüğü yedeği (a = adım 14,966'da kelimelerin %26'sı; the = adım 14,798'de %21). Beş v2 kararlılık düzeltmesi doğru çalışıyordu. Arıza mimariden veriye kaymıştı.

İki Bağımsız Pipeline Hatası

Hata A: unfirehose-chat ajan sistem prompt'larını kullanıcı dönüşleri olarak yakaladı. unfirehose-chat ~/.claude/, ~/.fetch/, ~/.uncloseai/ konumundaki harness oturum JSONL dosyalarından inşa edilir. Ingest pipeline'ı, çok bölümlü ajan sistem prompt'larını (# Agent X, ## Identity, ## Rules vb.) > user / < assistant çiftlerinin kullanıcı-dönüşü slotuna dönüştürdü. Model, 'kullanıcılar'ın çok bölümlü markdown ile konuştuğunu öğrendi ve kendi çıktılarında bu süslemeleri yeniden üretti.

Kusur B: hermes3-* tüm filtreleri atlattı. Makefile'daki DEEP_CLEAN_SKIP hermes3-general, hermes3-creative ve hermes3-roleplay'i make deep-clean işleminden hariç tuttu; LLM damıtılmış verinin önceden temizlendiği yanlış varsayımıyla. Kapsamlı bir tarama, mevcut filtrelerin uygulandığında hermes3 satırlarının %87-93'ünü reddedeceğini gösterdi (blok boyutu=1024'ü aşan >2000 karakterlik aşırı büyük paragraflar; CJK/Kiril/Arapça çeviri yanıtları; düşük bigram-çeşitliliği akımları).

v2.5 Yaması (commit de24332, 2026-04-18)

İki yapısal değişiklik.

Değişiklik 1: filter-dataset.c içindeki has_system_prompt_shape(). Karakter eşleştirmesiyle değil, ŞEKİLE göre sızdırılmış sistem istemlerini algılar. Üç sinyal birleştirildi:

1. Bir turda 3+ markdown başlığı = at.

2. 2+ başlık ile tur uzunluğu >=500 karakter = at.

3. Ajan-şard parmak izi ifadeleri (# Agent , Shadow Clone, Your shard, Read it. Become it, This file defines) herhangi bir başlık veya uzunluk >=400 ile birleşik = at.

Yalıtım kuralı: / ayıracındaki (boşluklarla, çıplak / değil ki URL yollarını parçalamasın) ilk kullanıcı turunu kontrol et, asistan yanıtlarındaki meşru markdown'da yanlış pozitifleri önlemek için.

Değişiklik 2: hermes3-* DEEP_CLEAN_SKIP dışına taşındı. Filtrelenmemiş hiçbir şeye güvenme.

Yama Sonrası Düşme Oranları

kaynak	iç satır	dış satır	düşen
hermes3-general	536,858	67,395	87.7%
hermes3-roleplay	35,191	2,481	93.0%
hermes3-creative	14,258	1,373	90.4%
unfirehose-chat	3,816	2,653	30.5%
chat	45,257	44,538	1.6% (gürültü)
smoltalk	11,812	11,812	0.0%

Temel filtreler zaten hermes3 kontaminasyonunun %87-93'ünü yakalıyordu; DEEP_CLEAN_SKIP yük taşıyan kusurdu. Yeni şekil dedektörü genel olarak ~%0.1 ek reddetme ekler, bu da unfirehose-chat'te yoğunlaşır ve mevcut filtrelerin kaçırdığı belirli ajan-parça sızıntılarını kaldırır.

Neden Şekil Karakteri Yener

Süslemeler evrilir. ○ düşüren bir karakter eşleştirme filtresi, gelecek hafta ◇ için hiçbir şey yapmaz. Şekle dayalı bir filtre (başlıkları say, karakterleri say, parmak izi ifadeleri tanı) süsleme varyantları arasında genelleşir. Desen: kontaminasyon tespiti yapısal sezgisel kurallar kullanmalıdır.

Neden Şekle Göre Filtrele

v2.5, SHAPE (başlık sayısı, uzunluk, parmak izi ifadeleri) ile ajan-parça sızıntılarını filtreler, KARAKTER (süslemeler gibi belirli sembolleri eşleştirme) ile değil. Bunun neden önemli olduğuna dair bir pratik neden verin & karakter-tabanlı bir filtrenin YAKALAYAMAYACAĞI bir somut arıza modu belirtin.

Verisiz Bir Bandit Kolu

v3 2026-04-18'de Başlatıldı

v2 ile aynı mimari & hiperparametreler; v2.5 yaması sonrası temizlenmiş veri. Örnek denetimlerde sıfır süsleme sızıntısı. v3, 112K adımına kadar temiz çalıştı.

Adım 112,619: Örnek Denetim Bir Desen Yakalar

Örnek denetim, tutarlı konuşma turlarını (haiku, S&A, diyalog) ortaya çıkardı ancak bilgi kollarına (gutenberg, repo-docstrings, repo-docs) odaklanan periyodik aşamalar, kod benzeri parçalar ve depo tokenizasyon gürültüsü sızdırdı. 112,080. adımda bir örnek kayıp 0.13'e ulaştı: anormal derecede düşük, öğrenilmiş sohbet dağılımı yerine ezberlenmiş repo-docs alt dizgilerini işaret ediyor.

Zombi Kol

Tanı: exclude_sources eğitim başlangıcında repo-docstrings'i doğru şekilde kaldırdı, ancak kalıcı bandit durumu, önceki bir çalıştırmadan ağırlığı 1.546 olan artık bir repo-docstrings kolunu taşıyordu. Durum yeniden yüklemesi, örneklemek için .btok olmasa bile UCB havuzuna geri getirdi ve keşif muhasebesini bozan bir zombi çekiş üretti.

Ders: bandit durum dosyaları (.state.json) yeniden başlatmalar arasında şaşırtıcı şekillerde sürüklenir. Yapılandırma hariç tutmaları artık kol belleğini silmez. Kemer ve askı gereklidir: cap = 0.0 ile birlikte exclude.

Lehçe Yapılandırma

Yalnızca müfredat pertürbasyonu. Mimari, optimizer durumu, öğrenme oranı programı ve kayıp geçmişi step_112600.bin'den tamamen korunmuştur.

Kaynak	v3 taban	v3 lehçe
repo-docs	kap 0.3	hariç (kap 0.0)
repo-docstrings	hariç	hariç + kap 0.0
repo-commits	cap 0.4	cap 0.2
dictionary	cap 0.5	cap 0.25
gutenberg	cap 0.8 / floor 0.3	cap 0.7 / floor 0.4
irc-qa-strict	--	cap 0.3
unweapon	--	cap 0.3
synthetic-chat	--	cap 0.4
hermes3-general	floor 0.5	floor 0.7
hermes3-creative	floor 0.4	floor 0.55
hermes3-roleplay	floor 0.4	floor 0.5
chat	floor 0.4	floor 0.6
smoltalk	floor 0.3	floor 0.5
oasst	floor 0.3	floor 0.5
dolly	--	floor 0.4
curriculum_warmup_steps	20000	0

Lehçe Protokolü

1. SIGUSR1 CUDA'ya gönderildiğinde, bir sonraki 100-adım sınırında anında checkpoint zorlar.

2. Proxy durur.

3. .samples.json & .state.json arşivlenir (örnek log & bandit durumu tarihi kayıt olarak kaydedilir).

4. .loss.json korunur -- kümülatif eğitim geçmişi; asla arşivlenmez.

5. Proxy yeniden başlatılır. Polish yapılandırması gönderilir.

6. CUDA step_112600.bin'den yeni bandit durumuyla, yeni tavan & taban limitleri altında devam eder.

Kayıp geçmişi kesintisiz devam eder.

Neden Parlatma, Yeniden Başlatma Değil

Adım 112,619, planlanan eğitimin %56'sında durdu. Ekip, TAM YENİDEN BAŞLATMA (adım 0'da yeniden başlat) yerine MÜFREDAT BOZULMASI'nı (ağırlıkları koru, tavan & tabanları değiştir) seçti. Parlatma-dönüşümün doğru olduğunu gösteren iki neden verin & adım 0'a gitmenin getireceği bir özel riski belirtin.

Parlatmanın Ürettiği

Örnek Denetim, Dönüşümden Saatler Sonra

Polonya pivotundan saatler içinde, örnek denetim orijinal dört ANDREA-120M hedefine yakınsama olduğunu doğruladı.

Gerçeksel hatırlama (biyoloji), adım 112,584, kayıp 0.30, ppl 1.

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

İki doğru gerçek. Dış değerlendirme: 9.5/10.

Gerçeksel hatırlama (sinyal işleme), adım 112,668, kayıp 0.74, ppl 2.

> [Fourier dönüşümü istemi]

> < Fourier dönüşümü, sinyalleri frekans bileşenlerine ayırır, sinyal özelliklerinin analizine ve frekans alanında filtrelemeye olanak tanır.

Ders kitabı tek cümlelik tanım. Dış değerlendirme: 9.5/10.

Kısıtlamalara uyma (haiku), adım 112,248, kayıp 1.05, ppl 3.

> Yağmuru anlatan bir haiku yaz, 'r' ile başlayan üç kelime kullanarak.

> < Yağmurun ritmik nakaratı, Pencerede sızan dereler, Hayatın acısından soluk.

Araç bilgisi (Python), adım 112.500, kayıp 1.94, ppl 7.

> Bir Python projesinde güncel olmayan paketleri nasıl bulurum?

> < pip list --outdated komutunu kullanarak projenizdeki pip paket listesini görmek için isimleri kullanın...

Doğru araç ortaya çıkıyor; ifadeleme imprecise.

700 Adımda Altı Alan

Biyoloji, sinyal işleme, şiir, python araçları, konuşma diyaloğu, operasyon diyaloğu. 700 adım içinde altı ilgisiz alan, haydutun & modelin birlikte çalıştığını gösterir. Alan genişliği AŞIRI yakınsama sinyalidir.

Dış Değerlendirme

Bağımsız inceleyici, örnekleri '120M parametreli bir model için sağlam -- bu ölçekte etkileyici tutarlılık ve bilgi koruma' olarak derecelendirdi; Carolina ara papağanı ve Fourier dönüşümü örnekleri 9.5/10 ve 'bilgi görevlerinde ağırlığının üstünde vuruyor' olarak puanlandı.

Her Aşama Ne Öğretti

v1 öğretti: beş bileşik başarısızlık eğitimi çökertir. İzole bir düzeltme kurtarmaz; hepsinin birden inmesi gerekir.

v2 öğretti: mimari düzeltmeler gereklidir ama yeterli değildir. Veri katmanı onları sessizce yenebilir.

v2.5 öğretti: filtreyi karakterle değil, şekille kirlet. Desenler sabittir; semboller evrilir.

v3 tabanı öğretti: haydut durumu yeniden başlatmalarda şaşırtıcı şekillerde sürüklenir. Yalnızca hariç tutmalar yeterli değil; kemer-askı 0.0 sınırı gereklidir.

v3 cilası öğretti: arıza politikadaysa ve model sağlıklıysa, politikayı boz. Ağırlıkları koru. Kayıp geçmişini koru. İleriye git.

Tek Gerçek

Yakınsama tek bir olay değildir; bir düzeltme zinciridir. Her aşama bir kusuru ortaya çıkardı, onu düzeltti ve bir sonrakini açığa çıkardı. ANDREA-120M, 112.584. adımda 9.5/10 okuyor çünkü v1, v2, v2.5, v3 tabanı ve v3 cilası her biri işini yaptı.

Hangi Aşama En Zor Dersi Verdi

Beş aşamadan (v1, v2, v2.5, v3 tabanı, v3 cilası) hangisinin dil modeli eğitiminin ötesine en fazla genelleşebilen mühendislik dersi verdiğini söylersiniz? Birini seçin. Dersi kendi kelimelerinizle belirtin ve bu dersin neden dil modeli eğitiminin ötesinde genelleştiğini 2-3 cümleyle açıklayın.