un — Выращивание языковой модели: Разминка учебного плана [DESCRIPTION /]

un

гость

1 / ?

назад к урокам

Шаги 0-20K: Ограниченная диета

Две фазы, один запуск

Учебный план firehose v2 запускается в две фазы внутри единого 200K-шагового обучения:

Фаза A (шаги 0 до 20K). Bandit берёт только из 7 источников чатов и прозы:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

Фаза B (шаги 20K до 200K). Бандит черпает из полной смеси, все 16 источников, включая справочный (dictionary), технический (repo-docs, repo-commits) и социальный (irc, unweapon).

Curriculum warmup timeline

Что общего у ограниченной диеты

Шесть из семи источников разогрева — разговорные. Один (gutenberg) — проза в виде абзацев. Вместе они имеют общую форму: структура поворотов (запрос, затем ответ) или повествовательный поток. Распределение словарного запаса по 7 источникам выглядит примерно как нормальный английский; цели кросс-энтропии остаются в стабильном диапазоне; величины градиентов остаются предсказуемыми.

Поле конфигурации

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

Определите фазу разогрева

Обучение прошло 18 400 шагов. Без просмотра состояния бандита, мог ли модель сэмплировать из `dictionary` или `repo-docs`? Объясните почему да или нет и укажите значение конфигурации, которое это определяет.

Как выглядел v1 без разогрева

v1: Все 16 источников с шага 0

Первый запуск обучения ANDREA-120M (март-апрель 2026) активировал полный поток с шага 0: 16 источников, включая dictionary (88K определений слов в форме > define X / < X is...), repo-docs (документация в markdown), repo-docstrings (docstrings Python) и repo-commits (сообщения git-коммитов наряду с чатом и программой).

Что пошло не так

Свежезапущенная модель на 120M параметров с случайными весами не может одновременно моделировать 16 различных распределений. Каждый батч из структурно различного источника производит разное направление градиента. Переходы между источниками каждые 7–42 шага резко колебали magnitudes градиентов; модель перескакивала между аттракторами быстрее, чем успевала формировать представления.

К шагу 80K v1 производила: region region region region region region region. Дистилляция учителя Hermes3-general награждала (среднее 340–453) повторяющиеся источники со структурой списка наивысшим баллом по кросс-энтропии, что бандит интерпретировал как «эти руки лёгкие». Бандит кормил модель большим количеством того, что приводило её к дегенерации.

Почему ограничение 7 источниками помогает

1. Сходство распределений. Все 7 источников разогрева производят текст похожей формы (структура поворотов или нарратив). Направления градиентов по батчам остаются примерно выровненными.

2. Сначала когерентность. Модель изучает частотность словаря, синтаксические паттерны и структуру ходов, прежде чем столкнуться со списками определений, кодом или сообщениями git.

3. Стабильная учебная программа. Сигналы вознаграждения бандита из 7 источников чата/пробы остаются в сопоставимом диапазоне; выбор UCB1 не захватывается одним аномально вознаграждающим источником.

Когда активируется фаза B

На шаге 20K модель произвела ~40-50 образцов (по одному на 100 шагов), показывает когерентный английский в образцах и построила стабильные распределения биграмм и триграмм. Теперь она может усвоить паттерн словаря > define X / < X is..., блоки кода из repo-docs и заголовки коммитов git, не теряя структуру чата под ними.

Диагностика провала v1

Свежезапущенный трансформер 120M обучается на 16 структурно разных источниках с шага 0. К шагу 80K образцы читаются как `region region region region region`. Свяжите выбор дизайна без разогрева с этим конкретным режимом провала: назовите механизм, по которому 16 источников на шаге 0 заставляют модель схлопнуться в повторение одного токена. Один или два предложения.

v3 Polish устанавливает curriculum_warmup_steps = 0

Иная отправная точка

Поворот v3 polish на шаге 112,619 возобновил обучение с step_112600.bin при curriculum_warmup_steps, установленном в 0. На первый взгляд это выглядит как противоречие: если разогрев помог v2, почему отключить его для фазы полировки?

Потому что модель уже научилась связности

Фаза A даёт время только что инициализированной модели, чтобы выучить частотность словаря, структуру ходов и связность абзацев. К шагу 112K модель уже всё это сделала. Примерные проверки на 112K показали связные разговорные ходы, хайку, Q&A и диалоги. Исходная цель разогрева (защитить хрупкую новую модель от хаоса градиентов) больше не применяется.

Polish Перевзвешивает, а Не Перезапускает

Polish — это возмущение учебного плана, а не свежий запуск. Тот же целевой 200K, та же архитектура, то же состояние оптимизатора, та же история потерь. Что меняется: верхние и нижние пределы источников перевзвешиваются в пользу разговора вместо рукавов знаний. С уже связной моделью каждый активный источник — честная игра начиная со шага 112,619.

Таблица Резюме

Фаза	curriculum_warmup_steps	Почему
v1	(отсутствует)	Все 16 источников с шага 0 -> схлопывание
v2 (шаги 0-200K)	20,000	Защита свежесинициализированных весов от хаоса градиентов
v3 base (шаги 0-112K)	20,000	Та же защита, что и в v2
v3 polish (шаги 112K-200K)	0	Модель уже coherent; нет хрупкого режима инициализации для защиты

Почему отключение разогрева на этапе полировки безопасно

Аргументируйте (в 2-3 предложениях), почему установка curriculum_warmup_steps = 0 на повороте v3 polish НЕ воссоздает схлопывание v1, несмотря на то, что в обоих запусках 'все источники активны с текущего шага.' Сослаться на состояние модели на шаге 112K.