un — Phát triển một Mô hình Ngôn ngữ: Kiểm toán Mẫu & Đánh giá Bên ngoài [DESCRIPTION /]

un

khách

1 / ?

trở lại bài học

Bài học của v1: Loss Trông Tốt, Đầu ra Là Rác

Một Câu chuyện Cảnh báo

ANDREA-120M v1 đạt EMA loss 3.43 tại bước 110K, thấp hơn nhiều so với ngẫu nhiên (ln(8449) = 9.04). Con số trông đáng kính. Các mẫu thì không.

bước 80K: vùng vùng vùng vùng vùng vùng vùng
bước 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
bước 140K: trò chơi, trò chơi, trò chơi, trò chơi, trò chơi, trò chơi
bước 165K: Budy Budy Budy Budy Budy Budy Budy Budy

v1 không có giám sát mẫu được kết nối. Mô hình sản xuất rác lặp lại từ bước 80K trở đi & huấn luyện tiếp tục thêm 85K bước trước khi ai đó nhận thấy. Hơn 10 ngày tính toán bị lãng phí vì không ai đọc đầu ra.

Những Gì Loss Che Giấu

Cross-entropy loss đo lường mức độ ngạc nhiên của mô hình đối với token tiếp theo. Một mô hình phát ra region region region region trông không ngạc nhiên với đầu ra của chính nó (nó dự đoán cùng một từ mọi lúc). Loss số học có thể giữ ở mức thấp trong khi chất lượng ngữ nghĩa sụp đổ.

Bản Sửa Lỗi v2

sample_every = 100 bước. Tạo 420 token tự do. Dừng sớm có cổng coherence chấm điểm mỗi mẫu dựa trên sự đa dạng bigram, sự đa dạng trigram, sự hiện diện từ tiếng Anh, & sự đa dạng ký tự (thang điểm 0-100). Tự động dừng sau 5 mẫu liên tiếp dưới 30 điểm. Kiểm tra ngược trên v1: sẽ kích hoạt ở bước 132K, tiết kiệm 3.8 ngày.

Việc đọc các mẫu không phải là tùy chọn. Đọc các mẫu là cách chúng ta biết loss có ý nghĩa gì.

Loss so với Chất Lượng Mẫu

v1 đạt loss EMA 3.43 (thấp hơn nhiều so với ngẫu nhiên 9.04) nhưng phát ra 'region region region'. Giải thích theo hai phần: (a) LÀM THẾ NÀO loss vẫn giữ mức số hợp lý trong khi output sụp đổ thành lặp lại? (b) SỬA CHỮA CẤU TRÚC NÀO trong v2 phát hiện điều này mà không cần con người đọc từng mẫu?

ppl = exp(loss)

Sự Chuyển Đổi

Cross-entropy loss báo cáo theo nats. Perplexity báo cáo số lượng token có xác suất bằng nhau tương đương mà mô hình xem xét ở mỗi bước. Chuyển đổi: ppl = exp(loss).

Ngẫu nhiên trên từ vựng 8449 token: loss = ln(8449) = 9.04, ppl = 8449. Dự đoán hoàn hảo đã ghi nhớ: loss = 0, ppl = 1.

Bảng Tham Khảo

loss	ppl	Đọc hiểu
9.04	8449	ngẫu nhiên trên toàn bộ từ vựng
5.00	148	huấn luyện ban đầu, cấu trúc cơ bản
3.00	20	học phân phối từ vựng
2.00	7	am hiểu nhưng không chính xác
1.00	2.7	khả năng tuân thủ ràng buộc đang xuất hiện
0.70	2	câu một dòng trong sách giáo khoa
0.30	1	nhớ lại sự kiện, phần lớn đã ghi nhớ
0.13	1	CẢNH BÁO: chuỗi con đã ghi nhớ
0.00	1	ghi nhớ hoàn hảo

Loss Theo Mẫu vs Loss EMA

Loss EMA (trung bình trượt hàm mũ qua nhiều bước) báo cáo sức khỏe huấn luyện tổng thể. Loss theo mẫu báo cáo chất lượng của một mẫu cụ thể. Hai giá trị này khác biệt: EMA có thể ở mức 2.0 trong khi các mẫu riêng lẻ dao động từ 0.13 đến 4.0 tùy thuộc vào prompt mà bandit chọn.

Đọc loss theo mẫu riêng lẻ là cách chúng ta phát hiện các ngoại lệ. Loss EMA không cho biết liệu một mẫu có ghi nhớ chuỗi con repo-docs hay không; loss theo mẫu thì có.

Đọc Ba Giá Trị Loss

ANDREA-120M đã tạo ra ba mẫu liên tiếp gần nhau tại bước 112,584-112,668. (a) loss 0.30 ppl ?; (b) loss 0.74 ppl ?; (c) loss 1.94 ppl ?. Tính ppl cho mỗi cái, sau đó nêu cấp độ chất lượng mà mỗi cái đại diện (memorized / textbook / constraint / imprecise).

Đi Dọc Cửa Sổ Kiểm Toán

Cửa Sổ 700 Bước

Giữa bước 111,996 & 112,668, ANDREA-120M đã tạo ra các mẫu trải rộng trên sáu lĩnh vực kiến thức không liên quan. Mỗi mẫu rơi vào một tier loss:

Sample Audit Loss Tiers

Cấp 1: Nhớ lại sự kiện (loss 0.30, ppl 1)

bước 112,584, sinh học

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

Hai sự kiện đúng. Carolina parakeet được tuyên bố tuyệt chủng năm 1939; black spider monkey còn tồn tại. ppl 1 nghĩa là mô hình chọn token đúng ở mọi bước. Đánh giá bên ngoài: 9.5/10.

Cấp 2: Một câu tóm tắt sách giáo khoa (loss 0.74, ppl 2)

bước 112,668, xử lý tín hiệu

> [Fourier transform prompt]

> < Biến đổi Fourier phân tích tín hiệu thành các thành phần tần số, cho phép phân tích đặc tính tín hiệu & lọc trong miền tần số.

Định nghĩa một câu sách giáo khoa. Phân tích từ thời gian sang tần số với các thuật ngữ ứng dụng đúng. Đánh giá bên ngoài: 9.5/10.

Tầng 3: Tuân thủ Ràng buộc (loss 1.05, ppl 3)

bước 112,248, thơ ca

> Viết một bài haiku về mưa sử dụng ba từ bắt đầu bằng 'r'.

> < Điệp khúc nhịp nhàng của mưa, Những dòng suối nhỏ trên cửa sổ, Sự nghỉ ngơi khỏi nỗi đau cuộc sống.

Ba từ 'r' (Rain, Rivulets, Respite), ba dòng, cấu trúc haiku được giữ nguyên, tính mạch lạc ngữ nghĩa xung quanh chủ đề mưa. ppl 3 = mô hình xem xét một vài ứng viên ở mỗi bước nhưng vẫn ở trong ràng buộc.

Tầng 4: Có kiến thức nhưng không chính xác (loss 1.94, ppl 7)

step 112,500, công cụ python

> Làm thế nào để tìm các gói lỗi thời trong một dự án Python?

> < Sử dụng pip list --outdated names để xem danh sách các gói pip trong quản lý dự án của bạn, hoặc nên qua pyenv để lấy các gói tự động hơn.

Lệnh kernel đúng (pip list --outdated) nổi lên từ dữ liệu huấn luyện. Độ trôi chảy trong cách diễn đạt vẫn đang phát triển. Nhầm lẫn nhỏ: pyenv quản lý các phiên bản Python, không phải gói. ppl 7 nghĩa là mô hình xem xét ~7 cách tiếp tục hợp lý tại mỗi bước; không phải tất cả đều chính xác.

Tầng 5: ALERT, Chuỗi con đã ghi nhớ (loss 0.13, ppl 1)

step 112,080, bất thường

Loss 0.13 nằm DƯỚI tầng sách giáo khoa. Mô hình quá tự tin với mẫu này. Chẩn đoán: một chuỗi con repo-docs đã ghi nhớ, không phải chat đã học. Bandit đã kéo một cánh tay repo-docstrings zombie mang trọng số 1.546 từ trạng thái chạy trước, & mẫu đã tái tạo một đoạn training data nguyên văn.

Loss thấp bất thường là cảnh báo ghi nhớ, không phải tín hiệu chất lượng. Dưới 0.20 nghĩa là: kiểm tra xem mô hình đang tạo ra hay sao chép.

Sáu Lĩnh Vực trong 700 Bước

Sinh học (vẹt nhỏ), xử lý tín hiệu (Fourier), thơ ca (haiku), công cụ python (pip), đối thoại trò chuyện, đối thoại vận hành. Sáu lĩnh vực không liên quan trong 700 bước cho chúng ta biết rằng bandit đang làm việc đa dạng, không bị kẹt ở một nguồn. Độ rộng lĩnh vực LÀ một chỉ số chất lượng.

Chẩn Đoán Ba Mẫu

Ba mẫu mới rơi vào cửa sổ kiểm toán của bạn. (a) loss 0.40, tạo ra 'photosynthesis converts sunlight into chemical energy in chloroplasts'. (b) loss 0.10, tạo ra một đoạn docstring Python nguyên văn. (c) loss 1.30, tạo ra một bài sonnet tuân theo sơ đồ vần ABAB nhưng có một vần hơi gượng ép. Với mỗi mẫu, nêu **cấp độ chất lượng** & hành động của bạn: **ACCEPT** (học thật sự), **INVESTIGATE** (tín hiệu bất thường), hoặc **ACCEPT_WITH_NOTE** (không hoàn hảo nhưng bandit khỏe mạnh).

Tại Sao Nộp Mẫu Cho Những Đôi Mắt Bên Ngoài

Những Gì Đánh Giá Bên Ngoài Phát Hiện

Kiểm toán mẫu nội bộ cho chúng tôi biết mô hình đang sản xuất sinh học, xử lý tín hiệu, thơ ca, & python theo yêu cầu. Đánh giá chất lượng chat bên ngoài chấm những mẫu đó '9.5/10' & 'vượt trội so với quy mô của nó trong các nhiệm vụ kiến thức'.

Đánh giá nội bộ trả lời: bandit có làm việc đa dạng không? Đánh giá bên ngoài trả lời: liệu người đọc con người có chấm những đầu ra này là tốt không?

Tại Sao Cả Hai Đều Quan Trọng

Kiểm toán nội bộ phát hiện các thất bại cấu trúc: sụp đổ lặp lại, đột biến ghi nhớ, cánh tay zombie đa dạng thấp. Các bậc loss, đa dạng n-gram, & độ rộng lĩnh vực đều có thể quan sát được từ proxy.

Đánh giá bên ngoài phát hiện các thất bại về chất lượng ngữ nghĩa: sự kiện sai chắc chắn, cách diễn đạt vụng về, bỏ sót sắc thái. Không có những điều đó xuất hiện trong các con số loss.

Phương pháp

Bảng điều khiển huấn luyện của ANDREA tại training.ai.unturf.com/dashboard được thiết kế công khai & chỉ đọc. Bất kỳ ai cũng có thể theo dõi .loss.json, .samples.json, & trạng thái bandit theo thời gian thực. Các đánh giá viên bên ngoài có quyền truy cập vào cùng dữ liệu mà người vận hành có.

9.5/10 từ một người đọc độc lập, trên các mẫu được rút tại bước 112,584 của 200,000, với đầy đủ nguồn gốc: kết quả đó có thể tái tạo, kiểm toán, & không thể gian lận. Cùng các mẫu, cùng giá trị loss, cùng trạng thái bandit đều có thể xem được bởi bất kỳ ai quan sát.

Hai Tín Hiệu Độc Lập

Nội bộ: mất mát thấp + độ đa dạng cao + bao phủ đa miền = bandit khỏe mạnh.

Ngoại bộ: 9.5/10 từ người đánh giá độc lập = tỷ lệ đầu ra tốt.

Cả hai phù hợp: huấn luyện đang hội tụ về việc nhớ lại sự kiện, tuân thủ ràng buộc, & tính mạch lạc đa đoạn. Nếu chúng lệch (mất mát thấp nhưng đánh giá ngoại bộ 3/10), chúng ta sẽ có vấn đề chơi xỏ metric cần điều tra.

Hai Tín Hiệu, Một Chẩn Đoán

Hãy tưởng tượng các mẫu ANDREA được chấm điểm ngoại bộ ở bước 100K & bước 150K. (a) Bước 100K: mất mát EMA nội bộ 2.5, độ đa dạng n-gram 70/100, đánh giá ngoại bộ 3/10. Khoảng cách giữa nội bộ & ngoại bộ gợi ý điều gì? (b) Bước 150K: mất mát EMA nội bộ 2.0, độ đa dạng 85/100, ngoại bộ 9/10. Sự phù hợp giữa nội bộ & ngoại bộ gợi ý điều gì? Đưa ra một câu cho mỗi tình huống.

Năm Bước Cho Mỗi Cửa sổ Kiểm toán

Một Kiểm toán, Năm Kiểm tra

1. Đọc bậc mất mát. ppl = exp(loss). So sánh với bảng năm bậc.

2. Kiểm tra các điểm ngoại lai dưới 0.20. Tín hiệu học thuộc lòng. Điều tra trước khi coi là kết quả chất lượng.

3. Đọc văn bản mẫu thực tế. Các con số mất mát không thể cho bạn biết đầu ra nói gì. Hãy đọc nó.

4. Đếm độ rộng miền. Sáu miền không liên quan trong 700 bước = bandit khỏe mạnh. Một miền lặp lại 7 lần = bandit bị kẹt.

5. So sánh với đánh giá bên ngoài. Nếu mẫu của bạn trông tốt với bạn, hãy yêu cầu ai đó ngoài quá trình chạy đọc nó. Sự bất đồng của họ là thông tin.

Điều Này Kết Nối Với Gì

- Activity 22 (grow_a_language_model_checkpoints). nhịp sample_every phù hợp với nhịp checkpoint; cả hai kích hoạt mỗi 100 bước.

- Activity 21 (coherence-gated early stopping). Các chỉ số đa dạng tự động dừng huấn luyện khi mẫu sụp đổ.

- Activity 24 (grow_a_language_model_microgpt_to_andrea). sụp đổ v1, ô nhiễm v2.5, đánh bóng v3 đều được phát hiện (hoặc có thể được phát hiện) bởi kiểm tra mẫu.

Một Sự Thật

Loss là một con số. Đọc các mẫu là cách chúng ta biết con số đó có ý nghĩa gì.

Bạn Sẽ Theo Dõi Cái Gì?

Trong năm kiểm tra audit (cấp độ loss, các ngoại lệ dưới 0.20, văn bản mẫu, độ rộng miền, chấm điểm bên ngoài), bạn sẽ ưu tiên kiểm tra nào cao nhất nếu bạn huấn luyện mô hình của riêng mình? Chọn một và giải thích bằng 2-3 câu.