Шаги 0-20K: Ограниченная диета
Две фазы, один запуск
Учебный план firehose v2 запускается в две фазы внутри единого 200K-шагового обучения:
Фаза A (шаги 0 до 20K). Bandit берёт только из 7 источников чатов и прозы:
- hermes3-general
- hermes3-creative
- hermes3-roleplay
- chat
- smoltalk
- oasst
- gutenberg
Фаза B (шаги 20K до 200K). Бандит черпает из полной смеси, все 16 источников, включая справочный (dictionary), технический (repo-docs, repo-commits) и социальный (irc, unweapon).
Что общего у ограниченной диеты
Шесть из семи источников разогрева — разговорные. Один (gutenberg) — проза в виде абзацев. Вместе они имеют общую форму: структура поворотов (запрос, затем ответ) или повествовательный поток. Распределение словарного запаса по 7 источникам выглядит примерно как нормальный английский; цели кросс-энтропии остаются в стабильном диапазоне; величины градиентов остаются предсказуемыми.
Поле конфигурации
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
Определите фазу разогрева
Как выглядел v1 без разогрева
v1: Все 16 источников с шага 0
Первый запуск обучения ANDREA-120M (март-апрель 2026) активировал полный поток с шага 0: 16 источников, включая dictionary (88K определений слов в форме > define X / < X is...), repo-docs (документация в markdown), repo-docstrings (docstrings Python) и repo-commits (сообщения git-коммитов наряду с чатом и программой).
Что пошло не так
Свежезапущенная модель на 120M параметров с случайными весами не может одновременно моделировать 16 различных распределений. Каждый батч из структурно различного источника производит разное направление градиента. Переходы между источниками каждые 7–42 шага резко колебали magnitudes градиентов; модель перескакивала между аттракторами быстрее, чем успевала формировать представления.
К шагу 80K v1 производила: region region region region region region region. Дистилляция учителя Hermes3-general награждала (среднее 340–453) повторяющиеся источники со структурой списка наивысшим баллом по кросс-энтропии, что бандит интерпретировал как «эти руки лёгкие». Бандит кормил модель большим количеством того, что приводило её к дегенерации.
Почему ограничение 7 источниками помогает
1. Сходство распределений. Все 7 источников разогрева производят текст похожей формы (структура поворотов или нарратив). Направления градиентов по батчам остаются примерно выровненными.
2. Сначала когерентность. Модель изучает частотность словаря, синтаксические паттерны и структуру ходов, прежде чем столкнуться со списками определений, кодом или сообщениями git.
3. Стабильная учебная программа. Сигналы вознаграждения бандита из 7 источников чата/пробы остаются в сопоставимом диапазоне; выбор UCB1 не захватывается одним аномально вознаграждающим источником.
Когда активируется фаза B
На шаге 20K модель произвела ~40-50 образцов (по одному на 100 шагов), показывает когерентный английский в образцах и построила стабильные распределения биграмм и триграмм. Теперь она может усвоить паттерн словаря > define X / < X is..., блоки кода из repo-docs и заголовки коммитов git, не теряя структуру чата под ними.
Диагностика провала v1
v3 Polish устанавливает curriculum_warmup_steps = 0
Иная отправная точка
Поворот v3 polish на шаге 112,619 возобновил обучение с step_112600.bin при curriculum_warmup_steps, установленном в 0. На первый взгляд это выглядит как противоречие: если разогрев помог v2, почему отключить его для фазы полировки?
Потому что модель уже научилась связности
Фаза A даёт время только что инициализированной модели, чтобы выучить частотность словаря, структуру ходов и связность абзацев. К шагу 112K модель уже всё это сделала. Примерные проверки на 112K показали связные разговорные ходы, хайку, Q&A и диалоги. Исходная цель разогрева (защитить хрупкую новую модель от хаоса градиентов) больше не применяется.
Polish Перевзвешивает, а Не Перезапускает
Polish — это возмущение учебного плана, а не свежий запуск. Тот же целевой 200K, та же архитектура, то же состояние оптимизатора, та же история потерь. Что меняется: верхние и нижние пределы источников перевзвешиваются в пользу разговора вместо рукавов знаний. С уже связной моделью каждый активный источник — честная игра начиная со шага 112,619.
Таблица Резюме
| Фаза | curriculum_warmup_steps | Почему |
|---|---|---|
| v1 | (отсутствует) | Все 16 источников с шага 0 -> схлопывание |
| v2 (шаги 0-200K) | 20,000 | Защита свежесинициализированных весов от хаоса градиентов |
| v3 base (шаги 0-112K) | 20,000 | Та же защита, что и в v2 |
| v3 polish (шаги 112K-200K) | 0 | Модель уже coherent; нет хрупкого режима инициализации для защиты |