On Altı Günlük region region region
Sonlanan Çalıştırma
ANDREA-120M v1 2026-03-22'de başlatıldı & 200.000 planlanan adımın 165.000'inde 2026-04-15'te sonlandırıldı. EMA kayıp minimumu: adım 110K'da 3.23 (rastgele şans: ln(8449) = 9.04, yani kayıp saygın görünüyordu). Örnekler öyle değildi.
Adım 80K: bölge bölge bölge bölge bölge bölge bölge
Adım 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
Adım 140K: oyunlar, oyunlar, oyunlar, oyunlar, oyunlar, oyunlar
Adım 165K: Budy Budy Budy Budy Budy Budy Budy Budy Budy
On altı gün RTX 4090 hesaplama. 130W sürekli. 80K adımdan itibaren çöp.
Neden microGPT Çalıştı Ama 120M Çalışmadı
ANDREA-12M aynı eğitim vekilini kullandı ve geçti. Daha küçük ağırlık matrisleri gradyan şoklarına karşı daha dayanıklı olduğunu kanıtladı. 120M parametreye ölçeklendirme her kırılganlığı çoğalttı. Beş başarısızlık birleşti.
Beş Birleşen Başarısızlık
Başarısızlık 1: Gradyan kesme yok. Kaynak geçişleri her 7-42 adımda sınırlanmamış gradyan piklerine neden oldu. 120M'de tek bir kötü toplu işlem, modeli optimizatörün kaçamayacağı yozlaşmış bir çekiciye itebilir. 12M modeli hayatta kaldı çünkü daha küçük ağırlıklar şokları tolere etti.
Hata 2: LR ısınması yok. Öğrenme oranı, yeni başlatılmış ağırlıklarda hemen zirveye sıçradı. Hiçbir temsil oluşmadan önce model kötü bir havzaya düştü.
Hata 3: Ağırlık çürümesi yok. Vanilla Adam, 120M kapasitede tekrar desenlerini artıran keyfi büyük ağırlıklara izin verdi.
Hata 4: Örnek kalitesi izleme yok. eval_chat_quality() yalnızca eski çok aşamalı çalıştırıcıya bağlanmıştı; firehose müfredatı onu hiç çağırmadı. Model 80K adımdan itibaren çöp üretti, 10+ gün tespit edilmeden.
Hata 5: Bandit tekrarlayan kaynakları ödüllendirdi. repo-docs, repo-docstrings ve unfirehose-chat en yüksek puanı aldı (ortalama ödüller 340-453) çünkü liste yapılı içerik çapraz entropiyi önemsizce azaltır. Bandit, modeli bozan şeyi daha fazla besledi.
Birikim
Hiçbir tek başarısızlık v1'i tek başına çökertmezdi. Her biri diğerlerini güçlendirdi. Isınma (2) olmadan gradyan şokları (1), keyfi büyük ağırlıklara sahip yeni başlatılmış bir modeli vurarak (3), haydutun ödüllendirdiği tekrarı üretti (5) ve kimse çıktıyı izlemiyordu (4). Beş kesişen neden, bir çöküş.
Neden Beş Başarısızlık, Tek Değil
Her Hata İçin Bir Düzeltme
v2 Yapılandırması (2026-04-15)
| Düzeltme | Hedeflenen hata | Uygulama |
|---|---|---|
| Gradyan kesme | F1 (kesme yok) | Global L2 norm, max_norm=1.0; üç CUDA çekirdeği (k_grad_norm_partial, k_grad_norm_final, k_grad_scale) Adam öncesi hesaplama ve uygulama yapar |
| LR ısınma | F2 (ısınma yok) | 2000 adımda 0'dan tepeye doğrusal rampa. lr(t) = lr_scheduled(t) * min(1, (t+1)/warmup_steps) |
| AdamW | F3 (ağırlık çürümesi yok) | Ayrılmış ağırlık çürümesi (Loshchilov & Hutter 2019), weight_decay=0.01. p -= lr (m_hat/(sqrt(v_hat)+eps) + weight_decayp) |
| Tutarlılık kapılı erken durdurma | F4 (izleme yok) | Her örneği puanla (bigrams/trigram/kelime/karakter çeşitliliği). 5 ardışık örnek 30'un altında puan aldıktan sonra otomatik dur |
| Müfredat ısınma | F5 (bandit tekrarı yiyor) | İlk 20K adım 7 sohbet/düz yazı kaynağıyla sınırlı; sonrasında firehose aktifleşir; repo-docstring'ler tamamen hariç tutulur |
Ayrıca sample_every 200'den 100 adıma düşürüldü (denetim sıklığı iki katına çıktı), & repo-docs limiti 0.5'ten 0.3'e düşürüldü.
Geri-Test
Tutarlılık kapısı v1 üzerinde geri-test edildi: 132K adımda tetiklenir, 3.8 gün hesaplama tasarrufu sağlardı. Kapı tek başına v1'in boşa harcanan hesaplamasını ~%30 kısaltırdı; diğer dört düzeltme v1'in bu kapı tetikleyicisine ulaşmasını engeller.
v2'nin Düzeltmediği Şeyler
Veri kontaminasyonu. v2, hermes3-* kaynaklarını bir LLM öğretmeninden geldikleri için 'ön-temizlenmiş' olarak güvendi. Makefile'daki DEEP_CLEAN_SKIP, hermes3-general, hermes3-creative ve hermes3-roleplay'i make deep-clean işleminden hariç tuttu. unfirehose-chat, ajan sistem prompt'larını kullanıcı turları olarak yakaladı. Bu iki kusur veri katmanında bekliyordu, yüzeye çıkmaya hazır.
Düzeltmeleri Arızalara Eşleştirme
Adım 15K: İki Veri Hatası Ortaya Çıkıyor
v2'nin Gördüğü
v2 2026-04-15'te başlatıldı. 200K'nın ~15K adımı itibarıyla (%7.5 tamamlanmış), ajan-harness süslemeleri (○ ●) üreten örnekler ve makale-üstünlüğü yedeği (a = adım 14,966'da kelimelerin %26'sı; the = adım 14,798'de %21). Beş v2 kararlılık düzeltmesi doğru çalışıyordu. Arıza mimariden veriye kaymıştı.
İki Bağımsız Pipeline Hatası
Hata A: unfirehose-chat ajan sistem prompt'larını kullanıcı dönüşleri olarak yakaladı. unfirehose-chat ~/.claude/, ~/.fetch/, ~/.uncloseai/ konumundaki harness oturum JSONL dosyalarından inşa edilir. Ingest pipeline'ı, çok bölümlü ajan sistem prompt'larını (# Agent X, ## Identity, ## Rules vb.) > user / < assistant çiftlerinin kullanıcı-dönüşü slotuna dönüştürdü. Model, 'kullanıcılar'ın çok bölümlü markdown ile konuştuğunu öğrendi ve kendi çıktılarında bu süslemeleri yeniden üretti.
Kusur B: hermes3-* tüm filtreleri atlattı. Makefile'daki DEEP_CLEAN_SKIP hermes3-general, hermes3-creative ve hermes3-roleplay'i make deep-clean işleminden hariç tuttu; LLM damıtılmış verinin önceden temizlendiği yanlış varsayımıyla. Kapsamlı bir tarama, mevcut filtrelerin uygulandığında hermes3 satırlarının %87-93'ünü reddedeceğini gösterdi (blok boyutu=1024'ü aşan >2000 karakterlik aşırı büyük paragraflar; CJK/Kiril/Arapça çeviri yanıtları; düşük bigram-çeşitliliği akımları).
v2.5 Yaması (commit de24332, 2026-04-18)
İki yapısal değişiklik.
Değişiklik 1: filter-dataset.c içindeki has_system_prompt_shape(). Karakter eşleştirmesiyle değil, ŞEKİLE göre sızdırılmış sistem istemlerini algılar. Üç sinyal birleştirildi:
1. Bir turda 3+ markdown başlığı = at.
2. 2+ başlık ile tur uzunluğu >=500 karakter = at.
3. Ajan-şard parmak izi ifadeleri (# Agent , Shadow Clone, Your shard, Read it. Become it, This file defines) herhangi bir başlık veya uzunluk >=400 ile birleşik = at.
Yalıtım kuralı: / ayıracındaki (boşluklarla, çıplak / değil ki URL yollarını parçalamasın) ilk kullanıcı turunu kontrol et, asistan yanıtlarındaki meşru markdown'da yanlış pozitifleri önlemek için.
Değişiklik 2: hermes3-* DEEP_CLEAN_SKIP dışına taşındı. Filtrelenmemiş hiçbir şeye güvenme.
Yama Sonrası Düşme Oranları
| kaynak | iç satır | dış satır | düşen |
|---|---|---|---|
| hermes3-general | 536,858 | 67,395 | 87.7% |
| hermes3-roleplay | 35,191 | 2,481 | 93.0% |
| hermes3-creative | 14,258 | 1,373 | 90.4% |
| unfirehose-chat | 3,816 | 2,653 | 30.5% |
| chat | 45,257 | 44,538 | 1.6% (gürültü) |
| smoltalk | 11,812 | 11,812 | 0.0% |
Temel filtreler zaten hermes3 kontaminasyonunun %87-93'ünü yakalıyordu; DEEP_CLEAN_SKIP yük taşıyan kusurdu. Yeni şekil dedektörü genel olarak ~%0.1 ek reddetme ekler, bu da unfirehose-chat'te yoğunlaşır ve mevcut filtrelerin kaçırdığı belirli ajan-parça sızıntılarını kaldırır.
Neden Şekil Karakteri Yener
Süslemeler evrilir. ○ düşüren bir karakter eşleştirme filtresi, gelecek hafta ◇ için hiçbir şey yapmaz. Şekle dayalı bir filtre (başlıkları say, karakterleri say, parmak izi ifadeleri tanı) süsleme varyantları arasında genelleşir. Desen: kontaminasyon tespiti yapısal sezgisel kurallar kullanmalıdır.
Neden Şekle Göre Filtrele
Verisiz Bir Bandit Kolu
v3 2026-04-18'de Başlatıldı
v2 ile aynı mimari & hiperparametreler; v2.5 yaması sonrası temizlenmiş veri. Örnek denetimlerde sıfır süsleme sızıntısı. v3, 112K adımına kadar temiz çalıştı.
Adım 112,619: Örnek Denetim Bir Desen Yakalar
Örnek denetim, tutarlı konuşma turlarını (haiku, S&A, diyalog) ortaya çıkardı ancak bilgi kollarına (gutenberg, repo-docstrings, repo-docs) odaklanan periyodik aşamalar, kod benzeri parçalar ve depo tokenizasyon gürültüsü sızdırdı. 112,080. adımda bir örnek kayıp 0.13'e ulaştı: anormal derecede düşük, öğrenilmiş sohbet dağılımı yerine ezberlenmiş repo-docs alt dizgilerini işaret ediyor.
Zombi Kol
Tanı: exclude_sources eğitim başlangıcında repo-docstrings'i doğru şekilde kaldırdı, ancak kalıcı bandit durumu, önceki bir çalıştırmadan ağırlığı 1.546 olan artık bir repo-docstrings kolunu taşıyordu. Durum yeniden yüklemesi, örneklemek için .btok olmasa bile UCB havuzuna geri getirdi ve keşif muhasebesini bozan bir zombi çekiş üretti.
Ders: bandit durum dosyaları (.state.json) yeniden başlatmalar arasında şaşırtıcı şekillerde sürüklenir. Yapılandırma hariç tutmaları artık kol belleğini silmez. Kemer ve askı gereklidir: cap = 0.0 ile birlikte exclude.
Lehçe Yapılandırma
Yalnızca müfredat pertürbasyonu. Mimari, optimizer durumu, öğrenme oranı programı ve kayıp geçmişi step_112600.bin'den tamamen korunmuştur.
| Kaynak | v3 taban | v3 lehçe |
|---|---|---|
| repo-docs | kap 0.3 | hariç (kap 0.0) |
| repo-docstrings | hariç | hariç + kap 0.0 |
| repo-commits | cap 0.4 | cap 0.2 |
| dictionary | cap 0.5 | cap 0.25 |
| gutenberg | cap 0.8 / floor 0.3 | cap 0.7 / floor 0.4 |
| irc-qa-strict | -- | cap 0.3 |
| unweapon | -- | cap 0.3 |
| synthetic-chat | -- | cap 0.4 |
| hermes3-general | floor 0.5 | floor 0.7 |
| hermes3-creative | floor 0.4 | floor 0.55 |
| hermes3-roleplay | floor 0.4 | floor 0.5 |
| chat | floor 0.4 | floor 0.6 |
| smoltalk | floor 0.3 | floor 0.5 |
| oasst | floor 0.3 | floor 0.5 |
| dolly | -- | floor 0.4 |
| curriculum_warmup_steps | 20000 | 0 |
Lehçe Protokolü
1. SIGUSR1 CUDA'ya gönderildiğinde, bir sonraki 100-adım sınırında anında checkpoint zorlar.
2. Proxy durur.
3. .samples.json & .state.json arşivlenir (örnek log & bandit durumu tarihi kayıt olarak kaydedilir).
4. .loss.json korunur -- kümülatif eğitim geçmişi; asla arşivlenmez.
5. Proxy yeniden başlatılır. Polish yapılandırması gönderilir.
6. CUDA step_112600.bin'den yeni bandit durumuyla, yeni tavan & taban limitleri altında devam eder.
Kayıp geçmişi kesintisiz devam eder.
Neden Parlatma, Yeniden Başlatma Değil
Parlatmanın Ürettiği
Örnek Denetim, Dönüşümden Saatler Sonra
Polonya pivotundan saatler içinde, örnek denetim orijinal dört ANDREA-120M hedefine yakınsama olduğunu doğruladı.
Gerçeksel hatırlama (biyoloji), adım 112,584, kayıp 0.30, ppl 1.
> [extinction prompt]
> < black spider montano is alive, carolina parakeet is extinct.
İki doğru gerçek. Dış değerlendirme: 9.5/10.
Gerçeksel hatırlama (sinyal işleme), adım 112,668, kayıp 0.74, ppl 2.
> [Fourier dönüşümü istemi]
> < Fourier dönüşümü, sinyalleri frekans bileşenlerine ayırır, sinyal özelliklerinin analizine ve frekans alanında filtrelemeye olanak tanır.
Ders kitabı tek cümlelik tanım. Dış değerlendirme: 9.5/10.
Kısıtlamalara uyma (haiku), adım 112,248, kayıp 1.05, ppl 3.
> Yağmuru anlatan bir haiku yaz, 'r' ile başlayan üç kelime kullanarak.
> < Yağmurun ritmik nakaratı, Pencerede sızan dereler, Hayatın acısından soluk.
Araç bilgisi (Python), adım 112.500, kayıp 1.94, ppl 7.
> Bir Python projesinde güncel olmayan paketleri nasıl bulurum?
> < pip list --outdated komutunu kullanarak projenizdeki pip paket listesini görmek için isimleri kullanın...
Doğru araç ortaya çıkıyor; ifadeleme imprecise.
700 Adımda Altı Alan
Biyoloji, sinyal işleme, şiir, python araçları, konuşma diyaloğu, operasyon diyaloğu. 700 adım içinde altı ilgisiz alan, haydutun & modelin birlikte çalıştığını gösterir. Alan genişliği AŞIRI yakınsama sinyalidir.
Dış Değerlendirme
Bağımsız inceleyici, örnekleri '120M parametreli bir model için sağlam -- bu ölçekte etkileyici tutarlılık ve bilgi koruma' olarak derecelendirdi; Carolina ara papağanı ve Fourier dönüşümü örnekleri 9.5/10 ve 'bilgi görevlerinde ağırlığının üstünde vuruyor' olarak puanlandı.
Her Aşama Ne Öğretti
v1 öğretti: beş bileşik başarısızlık eğitimi çökertir. İzole bir düzeltme kurtarmaz; hepsinin birden inmesi gerekir.
v2 öğretti: mimari düzeltmeler gereklidir ama yeterli değildir. Veri katmanı onları sessizce yenebilir.
v2.5 öğretti: filtreyi karakterle değil, şekille kirlet. Desenler sabittir; semboller evrilir.
v3 tabanı öğretti: haydut durumu yeniden başlatmalarda şaşırtıcı şekillerde sürüklenir. Yalnızca hariç tutmalar yeterli değil; kemer-askı 0.0 sınırı gereklidir.
v3 cilası öğretti: arıza politikadaysa ve model sağlıklıysa, politikayı boz. Ağırlıkları koru. Kayıp geçmişini koru. İleriye git.
Tek Gerçek
Yakınsama tek bir olay değildir; bir düzeltme zinciridir. Her aşama bir kusuru ortaya çıkardı, onu düzeltti ve bir sonrakini açığa çıkardı. ANDREA-120M, 112.584. adımda 9.5/10 okuyor çünkü v1, v2, v2.5, v3 tabanı ve v3 cilası her biri işini yaptı.