Bài học của v1: Loss Trông Tốt, Đầu ra Là Rác
Một Câu chuyện Cảnh báo
ANDREA-120M v1 đạt EMA loss 3.43 tại bước 110K, thấp hơn nhiều so với ngẫu nhiên (ln(8449) = 9.04). Con số trông đáng kính. Các mẫu thì không.
bước 80K: vùng vùng vùng vùng vùng vùng vùng
bước 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
bước 140K: trò chơi, trò chơi, trò chơi, trò chơi, trò chơi, trò chơi
bước 165K: Budy Budy Budy Budy Budy Budy Budy Budy
v1 không có giám sát mẫu được kết nối. Mô hình sản xuất rác lặp lại từ bước 80K trở đi & huấn luyện tiếp tục thêm 85K bước trước khi ai đó nhận thấy. Hơn 10 ngày tính toán bị lãng phí vì không ai đọc đầu ra.
Những Gì Loss Che Giấu
Cross-entropy loss đo lường mức độ ngạc nhiên của mô hình đối với token tiếp theo. Một mô hình phát ra region region region region trông không ngạc nhiên với đầu ra của chính nó (nó dự đoán cùng một từ mọi lúc). Loss số học có thể giữ ở mức thấp trong khi chất lượng ngữ nghĩa sụp đổ.
Bản Sửa Lỗi v2
sample_every = 100 bước. Tạo 420 token tự do. Dừng sớm có cổng coherence chấm điểm mỗi mẫu dựa trên sự đa dạng bigram, sự đa dạng trigram, sự hiện diện từ tiếng Anh, & sự đa dạng ký tự (thang điểm 0-100). Tự động dừng sau 5 mẫu liên tiếp dưới 30 điểm. Kiểm tra ngược trên v1: sẽ kích hoạt ở bước 132K, tiết kiệm 3.8 ngày.
Việc đọc các mẫu không phải là tùy chọn. Đọc các mẫu là cách chúng ta biết loss có ý nghĩa gì.
Loss so với Chất Lượng Mẫu
ppl = exp(loss)
Sự Chuyển Đổi
Cross-entropy loss báo cáo theo nats. Perplexity báo cáo số lượng token có xác suất bằng nhau tương đương mà mô hình xem xét ở mỗi bước. Chuyển đổi: ppl = exp(loss).
Ngẫu nhiên trên từ vựng 8449 token: loss = ln(8449) = 9.04, ppl = 8449. Dự đoán hoàn hảo đã ghi nhớ: loss = 0, ppl = 1.
Bảng Tham Khảo
| loss | ppl | Đọc hiểu |
|---|---|---|
| 9.04 | 8449 | ngẫu nhiên trên toàn bộ từ vựng |
| 5.00 | 148 | huấn luyện ban đầu, cấu trúc cơ bản |
| 3.00 | 20 | học phân phối từ vựng |
| 2.00 | 7 | am hiểu nhưng không chính xác |
| 1.00 | 2.7 | khả năng tuân thủ ràng buộc đang xuất hiện |
| 0.70 | 2 | câu một dòng trong sách giáo khoa |
| 0.30 | 1 | nhớ lại sự kiện, phần lớn đã ghi nhớ |
| 0.13 | 1 | CẢNH BÁO: chuỗi con đã ghi nhớ |
| 0.00 | 1 | ghi nhớ hoàn hảo |
Loss Theo Mẫu vs Loss EMA
Loss EMA (trung bình trượt hàm mũ qua nhiều bước) báo cáo sức khỏe huấn luyện tổng thể. Loss theo mẫu báo cáo chất lượng của một mẫu cụ thể. Hai giá trị này khác biệt: EMA có thể ở mức 2.0 trong khi các mẫu riêng lẻ dao động từ 0.13 đến 4.0 tùy thuộc vào prompt mà bandit chọn.
Đọc loss theo mẫu riêng lẻ là cách chúng ta phát hiện các ngoại lệ. Loss EMA không cho biết liệu một mẫu có ghi nhớ chuỗi con repo-docs hay không; loss theo mẫu thì có.
Đọc Ba Giá Trị Loss
Đi Dọc Cửa Sổ Kiểm Toán
Cửa Sổ 700 Bước
Giữa bước 111,996 & 112,668, ANDREA-120M đã tạo ra các mẫu trải rộng trên sáu lĩnh vực kiến thức không liên quan. Mỗi mẫu rơi vào một tier loss:
Cấp 1: Nhớ lại sự kiện (loss 0.30, ppl 1)
bước 112,584, sinh học
> [extinction prompt]
> < black spider montano is alive, carolina parakeet is extinct.
Hai sự kiện đúng. Carolina parakeet được tuyên bố tuyệt chủng năm 1939; black spider monkey còn tồn tại. ppl 1 nghĩa là mô hình chọn token đúng ở mọi bước. Đánh giá bên ngoài: 9.5/10.
Cấp 2: Một câu tóm tắt sách giáo khoa (loss 0.74, ppl 2)
bước 112,668, xử lý tín hiệu
> [Fourier transform prompt]
> < Biến đổi Fourier phân tích tín hiệu thành các thành phần tần số, cho phép phân tích đặc tính tín hiệu & lọc trong miền tần số.
Định nghĩa một câu sách giáo khoa. Phân tích từ thời gian sang tần số với các thuật ngữ ứng dụng đúng. Đánh giá bên ngoài: 9.5/10.
Tầng 3: Tuân thủ Ràng buộc (loss 1.05, ppl 3)
bước 112,248, thơ ca
> Viết một bài haiku về mưa sử dụng ba từ bắt đầu bằng 'r'.
> < Điệp khúc nhịp nhàng của mưa, Những dòng suối nhỏ trên cửa sổ, Sự nghỉ ngơi khỏi nỗi đau cuộc sống.
Ba từ 'r' (Rain, Rivulets, Respite), ba dòng, cấu trúc haiku được giữ nguyên, tính mạch lạc ngữ nghĩa xung quanh chủ đề mưa. ppl 3 = mô hình xem xét một vài ứng viên ở mỗi bước nhưng vẫn ở trong ràng buộc.
Tầng 4: Có kiến thức nhưng không chính xác (loss 1.94, ppl 7)
step 112,500, công cụ python
> Làm thế nào để tìm các gói lỗi thời trong một dự án Python?
> < Sử dụng pip list --outdated names để xem danh sách các gói pip trong quản lý dự án của bạn, hoặc nên qua pyenv để lấy các gói tự động hơn.
Lệnh kernel đúng (pip list --outdated) nổi lên từ dữ liệu huấn luyện. Độ trôi chảy trong cách diễn đạt vẫn đang phát triển. Nhầm lẫn nhỏ: pyenv quản lý các phiên bản Python, không phải gói. ppl 7 nghĩa là mô hình xem xét ~7 cách tiếp tục hợp lý tại mỗi bước; không phải tất cả đều chính xác.
Tầng 5: ALERT, Chuỗi con đã ghi nhớ (loss 0.13, ppl 1)
step 112,080, bất thường
Loss 0.13 nằm DƯỚI tầng sách giáo khoa. Mô hình quá tự tin với mẫu này. Chẩn đoán: một chuỗi con repo-docs đã ghi nhớ, không phải chat đã học. Bandit đã kéo một cánh tay repo-docstrings zombie mang trọng số 1.546 từ trạng thái chạy trước, & mẫu đã tái tạo một đoạn training data nguyên văn.
Loss thấp bất thường là cảnh báo ghi nhớ, không phải tín hiệu chất lượng. Dưới 0.20 nghĩa là: kiểm tra xem mô hình đang tạo ra hay sao chép.
Sáu Lĩnh Vực trong 700 Bước
Sinh học (vẹt nhỏ), xử lý tín hiệu (Fourier), thơ ca (haiku), công cụ python (pip), đối thoại trò chuyện, đối thoại vận hành. Sáu lĩnh vực không liên quan trong 700 bước cho chúng ta biết rằng bandit đang làm việc đa dạng, không bị kẹt ở một nguồn. Độ rộng lĩnh vực LÀ một chỉ số chất lượng.
Chẩn Đoán Ba Mẫu
Tại Sao Nộp Mẫu Cho Những Đôi Mắt Bên Ngoài
Những Gì Đánh Giá Bên Ngoài Phát Hiện
Kiểm toán mẫu nội bộ cho chúng tôi biết mô hình đang sản xuất sinh học, xử lý tín hiệu, thơ ca, & python theo yêu cầu. Đánh giá chất lượng chat bên ngoài chấm những mẫu đó '9.5/10' & 'vượt trội so với quy mô của nó trong các nhiệm vụ kiến thức'.
Đánh giá nội bộ trả lời: bandit có làm việc đa dạng không? Đánh giá bên ngoài trả lời: liệu người đọc con người có chấm những đầu ra này là tốt không?
Tại Sao Cả Hai Đều Quan Trọng
Kiểm toán nội bộ phát hiện các thất bại cấu trúc: sụp đổ lặp lại, đột biến ghi nhớ, cánh tay zombie đa dạng thấp. Các bậc loss, đa dạng n-gram, & độ rộng lĩnh vực đều có thể quan sát được từ proxy.
Đánh giá bên ngoài phát hiện các thất bại về chất lượng ngữ nghĩa: sự kiện sai chắc chắn, cách diễn đạt vụng về, bỏ sót sắc thái. Không có những điều đó xuất hiện trong các con số loss.
Phương pháp
Bảng điều khiển huấn luyện của ANDREA tại training.ai.unturf.com/dashboard được thiết kế công khai & chỉ đọc. Bất kỳ ai cũng có thể theo dõi .loss.json, .samples.json, & trạng thái bandit theo thời gian thực. Các đánh giá viên bên ngoài có quyền truy cập vào cùng dữ liệu mà người vận hành có.
9.5/10 từ một người đọc độc lập, trên các mẫu được rút tại bước 112,584 của 200,000, với đầy đủ nguồn gốc: kết quả đó có thể tái tạo, kiểm toán, & không thể gian lận. Cùng các mẫu, cùng giá trị loss, cùng trạng thái bandit đều có thể xem được bởi bất kỳ ai quan sát.
Hai Tín Hiệu Độc Lập
Nội bộ: mất mát thấp + độ đa dạng cao + bao phủ đa miền = bandit khỏe mạnh.
Ngoại bộ: 9.5/10 từ người đánh giá độc lập = tỷ lệ đầu ra tốt.
Cả hai phù hợp: huấn luyện đang hội tụ về việc nhớ lại sự kiện, tuân thủ ràng buộc, & tính mạch lạc đa đoạn. Nếu chúng lệch (mất mát thấp nhưng đánh giá ngoại bộ 3/10), chúng ta sẽ có vấn đề chơi xỏ metric cần điều tra.
Hai Tín Hiệu, Một Chẩn Đoán
Năm Bước Cho Mỗi Cửa sổ Kiểm toán
Một Kiểm toán, Năm Kiểm tra
1. Đọc bậc mất mát. ppl = exp(loss). So sánh với bảng năm bậc.
2. Kiểm tra các điểm ngoại lai dưới 0.20. Tín hiệu học thuộc lòng. Điều tra trước khi coi là kết quả chất lượng.
3. Đọc văn bản mẫu thực tế. Các con số mất mát không thể cho bạn biết đầu ra nói gì. Hãy đọc nó.
4. Đếm độ rộng miền. Sáu miền không liên quan trong 700 bước = bandit khỏe mạnh. Một miền lặp lại 7 lần = bandit bị kẹt.
5. So sánh với đánh giá bên ngoài. Nếu mẫu của bạn trông tốt với bạn, hãy yêu cầu ai đó ngoài quá trình chạy đọc nó. Sự bất đồng của họ là thông tin.
Điều Này Kết Nối Với Gì
- Activity 22 (grow_a_language_model_checkpoints). nhịp sample_every phù hợp với nhịp checkpoint; cả hai kích hoạt mỗi 100 bước.
- Activity 21 (coherence-gated early stopping). Các chỉ số đa dạng tự động dừng huấn luyện khi mẫu sụp đổ.
- Activity 24 (grow_a_language_model_microgpt_to_andrea). sụp đổ v1, ô nhiễm v2.5, đánh bóng v3 đều được phát hiện (hoặc có thể được phát hiện) bởi kiểm tra mẫu.
Một Sự Thật
Loss là một con số. Đọc các mẫu là cách chúng ta biết con số đó có ý nghĩa gì.