un — Phát triển một Mô hình Ngôn ngữ: Khởi động Chương trình học [DESCRIPTION /]

un

khách

1 / ?

trở lại bài học

Các bước 0-20K: Chế độ ăn Hạn chế

Hai Giai đoạn, Một Quá trình chạy

Chương trình học vòi phun nước v2 chạy trong hai giai đoạn bên trong một quá trình huấn luyện 200K bước duy nhất:

Giai đoạn A (các bước 0 đến 20K). Bandit chỉ kéo từ 7 nguồn chat & văn xuôi:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

Giai đoạn B (các bước 20K đến 200K). Bandit lấy từ toàn bộ hỗn hợp, tất cả 16 nguồn, bao gồm tham chiếu (dictionary), kỹ thuật (repo-docs, repo-commits), & xã hội (irc, unweapon).

Curriculum warmup timeline

Những gì Chế độ Ăn Hạn chế Chia sẻ

Sáu trong bảy nguồn warmup là hội thoại. Một (gutenberg) là văn xuôi đoạn văn. Cùng nhau chúng chia sẻ một hình dạng chung: cấu trúc lượt (prompt rồi response) hoặc dòng chảy kể chuyện. Phân bố từ vựng qua 7 nguồn trông xấp xỉ tiếng Anh bình thường; các mục tiêu cross-entropy giữ trong phạm vi ổn định; độ lớn gradient giữ khả năng dự đoán.

Trường Config

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

Xác định Giai đoạn Warmup

Một buổi huấn luyện đã chạy được 18.400 bước. Không nhìn vào trạng thái bandit, liệu mô hình có thể đã lấy mẫu từ `dictionary` hoặc `repo-docs` không? Giải thích tại sao có hoặc không & trích dẫn giá trị cấu hình quyết định điều này.

V1 Trông Như Thế Nào Nếu Không Có Warmup

v1: Tất cả 16 Nguồn từ Bước 0

Buổi huấn luyện ANDREA-120M đầu tiên (Tháng 3-Tháng 4 năm 2026) kích hoạt toàn bộ firehose ngay từ bước 0: 16 nguồn, bao gồm dictionary (88K định nghĩa từ trong định dạng > define X / < X is...), repo-docs (tài liệu markdown), repo-docstrings (docstrings Python), & repo-commits (tin nhắn git commit cùng với chat & prose).

Điều Gì Đã Sai

Một mô hình 120M mới khởi tạo với trọng số ngẫu nhiên không thể mô hình hóa 16 phân phối riêng biệt cùng lúc. Mỗi batch từ nguồn có cấu trúc khác nhau tạo ra hướng gradient khác nhau. Chuyển đổi nguồn cứ mỗi 7-42 bước làm độ lớn gradient dao động dữ dội; mô hình nhảy giữa các điểm hút nhanh hơn tốc độ nó có thể hình thành biểu diễn.

Đến bước 80K, v1 tạo ra: region region region region region region region. Phần thưởng chưng cất giáo viên Hermes3-general (trung bình 340-453) làm các nguồn có cấu trúc danh sách lặp lại đạt điểm cao nhất trên entropy chéo, mà bandit diễn giải là 'các cánh tay này dễ dàng.' Bandit cung cấp cho mô hình nhiều hơn những gì làm nó suy thoái.

Tại Sao Giới Hạn Ở 7 Nguồn Lại Giúp Ích

1. Tương đồng phân phối. Tất cả 7 nguồn warmup tạo ra văn bản có hình dạng tương tự (cấu trúc lượt hoặc kể chuyện). Hướng gradient qua các batch giữ nguyên khoảng thẳng hàng.

2. Ưu tiên tính mạch lạc. Mô hình học tần suất từ vựng, mẫu cú pháp, & cấu trúc lượt trước khi gặp danh sách định nghĩa, mã code, hoặc thông điệp git.

3. Chương trình học ổn định. Tín hiệu phần thưởng bandit từ 7 nguồn chat/văn xuôi nằm trong phạm vi tương đương; lựa chọn UCB1 không bị chi phối bởi một nguồn có phần thưởng bất thường cao.

Khi Giai đoạn B Kích hoạt

Tại bước 20K, mô hình đã tạo ra ~40-50 mẫu (một mẫu mỗi 100 bước), hiển thị tiếng Anh mạch lạc trong các mẫu, & đã xây dựng phân phối bigram & trigram ổn định. Bây giờ nó có thể tiếp nhận mẫu > define X / < X is... của từ điển, khối code của repo-docs, & tiêu đề commit git mà không làm mất cấu trúc chat bên dưới.

Chẩn đoán Thất bại của v1

Một transformer 120M mới khởi tạo được huấn luyện trên 16 nguồn có cấu trúc khác nhau từ bước 0. Đến bước 80K, các mẫu đọc `region region region region region`. Kết nối lựa chọn thiết kế không-warmup với chế độ thất bại cụ thể này: nêu tên cơ chế mà theo đó 16 nguồn tại bước 0 khiến mô hình sụp đổ vào lặp lại một token duy nhất. Một hoặc hai câu.

v3 Polish đặt curriculum_warmup_steps = 0

Một Điểm Bắt Đầu Khác Biệt

Sự chuyển hướng polish của v3 tại bước 112,619 tiếp tục huấn luyện từ step_112600.bin với curriculum_warmup_steps được đặt thành 0. Thoạt nhìn điều này giống như một mâu thuẫn: nếu warmup giúp v2, tại sao tắt nó trong giai đoạn polish?

Vì Mô Hình Đã Học Được Sự Liên Kết

Giai đoạn A mua thời gian cho một mô hình mới được khởi tạo để học tần suất từ vựng, cấu trúc lượt, & sự mạch lạc đoạn văn. Đến bước 112K, mô hình đã làm tất cả những điều đó. Các kiểm tra mẫu tại 112K cho thấy các lượt trò chuyện mạch lạc, haiku, Q&A, & đối thoại. Mục đích ban đầu của warmup (bảo vệ mô hình mới mong manh khỏi sự hỗn loạn gradient) không còn áp dụng nữa.

Polish Tái cân bằng trọng số, Không Khởi động lại

Polish là một sự xáo trộn chương trình học, không phải một lần chạy mới. Cùng mục tiêu 200K, cùng kiến trúc, cùng trạng thái tối ưu hóa, cùng lịch sử loss. Điều thay đổi: nguồn caps & floors được tái cân bằng trọng số để ưu tiên trò chuyện hơn các cánh tay kiến thức. Với mô hình đã mạch lạc, mọi nguồn hoạt động đều là mục tiêu hợp lệ từ bước 112,619 trở đi.

Bảng Tóm tắt

Giai đoạn	curriculum_warmup_steps	Lý do
v1	(không có)	Tất cả 16 nguồn từ bước 0 -> sụp đổ
v2 (steps 0-200K)	20,000	Bảo vệ các trọng số mới khởi tạo khỏi sự hỗn loạn gradient
v3 base (steps 0-112K)	20,000	Bảo vệ tương tự như v2
v3 polish (steps 112K-200K)	0	Mô hình đã mạch lạc; không còn chế độ khởi tạo mong manh cần bảo vệ

Tại sao việc tắt Warmup ở giai đoạn Polish là an toàn

Lập luận (trong 2-3 câu) tại sao việc đặt curriculum_warmup_steps = 0 tại điểm pivot v3 polish KHÔNG tái tạo sự sụp đổ của v1, mặc dù cả hai run đều có 'tất cả nguồn hoạt động từ bước hiện tại.' Tham chiếu trạng thái mô hình tại bước 112K.