un — Cultive um Modelo de Linguagem: Auditoria de Amostra & Avaliação Externa [DESCRIPTION /]

un

visitante

1 / ?

voltar às lições

Lição da v1: A Perda Parece Boa, a Saída É Lixo

Uma História de Advertência

ANDREA-120M v1 alcançou perda EMA 3.43 no passo 110K, bem abaixo da chance aleatória (ln(8449) = 9.04). O número parecia respeitável. As amostras não.

passo 80K:  região região região região região região região
passo 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
passo 140K: jogos, jogos, jogos, jogos, jogos, jogos
passo 165K: Budy Budy Budy Budy Budy Budy Budy Budy

a v1 não tinha monitoramento de amostras configurado. O modelo produziu lixo em loop de repetição a partir do passo 80K & o treinamento continuou por mais 85K passos antes de alguém notar. 10+ dias de computação desperdiçados porque ninguém leu a saída.

O Que a Perda Esconde

A perda de entropia cruzada mede o quão surpreso o modelo fica com o próximo token. Um modelo que emite region region region region parece não surpreso com sua própria saída (ele previu a mesma palavra toda vez). A perda numérica pode permanecer baixa enquanto a qualidade semântica colapsa.

A Correção v2

sample_every = 100 passos. Gere 420 tokens de forma livre. Parada antecipada com portão de coerência pontua cada amostra em diversidade de bigramas, diversidade de trigramas, presença de palavras em inglês e diversidade de caracteres (escala 0-100). Para automaticamente após 5 amostras consecutivas com pontuação abaixo de 30. Testado retroativamente na v1: teria acionado no passo 132K, economizando 3,8 dias.

Ler amostras não é opcional. Ler amostras é como sabemos que a perda significa algo.

Perda vs Qualidade da Amostra

A v1 atingiu perda EMA 3.43 (bem abaixo do aleatório 9.04), mas emitiu 'region region region'. Explique em duas partes: (a) COMO a perda pode permanecer numericamente razoável enquanto a saída colapsa em repetição? (b) QUAL correção estrutural na v2 detecta isso sem depender de um humano lendo cada amostra?

ppl = exp(loss)

A Conversão

A perda de entropia cruzada é reportada em nats. A perplexidade reporta o número equivalente de tokens igualmente prováveis que o modelo considera em cada passo. Conversão: ppl = exp(loss).

Aleatório sobre um vocabulário de 8449 tokens: loss = ln(8449) = 9.04, ppl = 8449. Predição perfeita memorizada: loss = 0, ppl = 1.

Uma Tabela de Referência

loss	ppl	Leitura
9.04	8449	aleatório sobre vocabulário completo
5.00	148	treinamento inicial, estrutura básica
3.00	20	aprendendo distribuição de vocabulário
2.00	7	conhecedor mas impreciso
1.00	2.7	emergência de seguimento de restrições
0.70	2	frase de uma linha de livro didático
0.30	1	recordação factual, majoritariamente memorizado
0.13	1	ALERTA: substring memorizado
0.00	1	memorização perfeita

Perda por Amostra vs Perda EMA

A perda EMA (média móvel exponencial ao longo de muitos passos) relata a saúde geral do treinamento. A perda por amostra relata a qualidade de uma amostra específica. As duas divergem: a EMA pode ficar em 2.0 enquanto amostras individuais variam de 0.13 a 4.0 dependendo de qual prompt o bandit selecionou.

Ler a perda de amostras individuais é como capturamos outliers. A perda EMA não nos diz nada sobre se uma amostra memorizou um substring de repo-docs; a perda por amostra sim.

Lendo Três Valores de Perda

ANDREA-120M produziu três amostras em sucessão próxima no passo 112.584-112.668. (a) perda 0.30 ppl ?; (b) perda 0.74 ppl ?; (c) perda 1.94 ppl ?. Calcule cada ppl, depois declare o nível de qualidade que cada um representa (memorizado / livro didático / restrição / impreciso).

Percorrendo a Janela de Auditoria

Uma Janela de 700 Passos

Entre o passo 111.996 e 112.668, ANDREA-120M produziu amostras abrangendo seis domínios de conhecimento não relacionados. Cada uma cai em um tier de perda:

Sample Audit Loss Tiers

Nível 1: Recordação Factual (loss 0.30, ppl 1)

passo 112,584, biologia

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

Dois fatos corretos. Carolina parakeet declarada extinta em 1939; black spider monkey extant. ppl 1 significa que o modelo escolheu o token certo em cada passo. Avaliação externa: 9.5/10.

Camada 2: Resumo de Livro Didático em Uma Linha (perda 0.74, ppl 2)

passo 112.668, processamento de sinal

> [prompt da transformada de Fourier]

> < A transformada de Fourier decompõe sinais em componentes de frequência, permitindo a análise das características do sinal e o filtragem no domínio da frequência.

Uma definição de livro didático em uma frase. Decomposição temporal-frequencial com termos de aplicação corretos. Avaliação externa: 9.5/10.

Nível 3: Seguimento de Restrições (loss 1.05, ppl 3)

passo 112,248, poesia

> Escreva um haiku sobre chuva usando três palavras que começam com 'r'.

> < Refrão rítmico da chuva, Riachos na janela, Respiro da dor da vida.

Três palavras com 'r' (Rain, Rivulets, Respite), três linhas, estrutura de haiku preservada, coerência semântica em torno da chuva. ppl 3 = o modelo considerou alguns candidatos em cada passo, mas permaneceu dentro da restrição.

Nível 4: Conhecedor, mas Impreciso (perda 1.94, ppl 7)

passo 112.500, ferramentas python

> Como encontro pacotes desatualizados em um projeto Python?

> < Use pip list --outdated names para ver a lista de pacotes pip no gerenciamento do seu projeto, ou deveria ser via pyenv para obter pacotes mais automáticos.

Comando correto do kernel (pip list --outdated) emerge dos dados de treinamento. Fluência na formulação ainda em desenvolvimento. Confusão menor: pyenv gerencia versões do Python, não pacotes. ppl 7 significa que o modelo considerou ~7 continuações plausíveis em cada passo; nem todas eram precisamente corretas.

Nível 5: ALERTA, Substring Memorizada (perda 0.13, ppl 1)

passo 112.080, anômalo

A perda 0.13 está ABAIXO do nível do livro didático. O modelo está confiante demais nesta amostra. Diagnóstico: uma substring memorizada de repo-docs, não conversa aprendida. O bandido puxou um braço zumbi repo-docstrings carregando peso 1.546 de um estado de execução anterior, & a amostra reproduziu um trecho verbatim dos dados de treinamento.

Perda anômalamente baixa é um alerta de memorização, não um sinal de qualidade. Abaixo de 0.20 significa: verifique se o modelo está gerando ou copiando.

Seis Domínios em 700 Passos

Biologia (periquito), processamento de sinais (Fourier), poesia (haiku), ferramentas python (pip), diálogo conversacional, diálogo de operações. Seis domínios não relacionados em 700 passos nos diz que o bandit está fazendo trabalho diversificado, não preso em uma única fonte. A amplitude de domínio É uma métrica de qualidade.

Diagnosticando Três Amostras

Três novas amostras chegam na sua janela de auditoria. (a) perda 0.40, gera 'a fotossíntese converte luz solar em energia química nos cloroplastos'. (b) perda 0.10, gera um trecho verbatim de uma docstring do Python. (c) perda 1.30, gera um soneto que segue o esquema de rima ABAB, mas com uma rima ligeiramente forçada. Para cada um, nomeie o tier de qualidade & declare sua ação: ACCEPT (aprendizado genuíno), INVESTIGATE (sinal de anomalia), ou ACCEPT_WITH_NOTE (imperfeito mas bandit saudável).

Por Que Enviar Amostras para Olhos Externos

O Que a Avaliação Externa Capturou

A auditoria interna de amostras nos disse que o modelo estava produzindo biologia, processamento de sinais, poesia e python sob demanda. A avaliação externa de qualidade de chat classificou essas amostras como '9.5/10' e 'superando seu peso em tarefas de conhecimento nesta escala'.

Revisão interna responde: o bandit fez trabalho diversificado? Revisão externa responde: um leitor humano classificaria essas saídas como boas?

Por Que Ambas Importam

A auditoria interna captura falhas estruturais: colapso de repetição, picos de memorização, braços zumbis de baixa diversidade. Camadas de perda, diversidade de n-grama e amplitude de domínio são todas observáveis a partir do proxy.

A avaliação externa detecta falhas de qualidade semântica: fatos confiantemente errados, frases estranhas, nuances perdidas. Nenhum desses aparece nos números de perda.

Metodologia

O painel de treinamento da ANDREA em training.ai.unturf.com/dashboard é intencionalmente público e somente leitura. Qualquer pessoa pode consultar .loss.json, .samples.json e o estado do bandit em tempo real. Revisores externos tinham acesso aos mesmos dados que o operador.

9.5/10 de um leitor independente, em amostras extraídas no passo 112.584 de 200.000, com procedência completa: esse resultado é reproduzível, auditável e não manipulável. As mesmas amostras, os mesmos valores de perda, o mesmo estado do bandit são visíveis para qualquer um que olhar.

Dois Sinais Independentes

Interno: baixa perda + alta diversidade + cobertura multi-domínio = bandit saudável.

Externo: 9.5/10 de revisor independente = taxas de saída boas.

Ambos se alinham: o treinamento está convergindo para recall factual, seguimento de restrições e coerência multi-parágrafo. Se divergissem (baixa perda mas avaliação externa 3/10), teríamos um problema de manipulação de métricas para investigar.

Dois Sinais, Um Diagnóstico

Imagine que amostras ANDREA recebem avaliação externa no passo 100K e no passo 150K. (a) Passo 100K: perda EMA interna 2.5, diversidade n-gram 70/100, avaliação externa 3/10. O que a lacuna entre interno e externo sugere? (b) Passo 150K: perda EMA interna 2.0, diversidade 85/100, externa 9/10. O que o alinhamento de interno e externo sugere? Dê uma frase por cenário.

Cinco Passos Por Janela de Auditoria

Uma Auditoria, Cinco Verificações

1. Leia o nível de perda. ppl = exp(loss). Compare com a tabela de cinco níveis.

2. Verifique por outliers abaixo de 0,20. Sinal de memorização. Investigue antes de tratar como um resultado de qualidade.

3. Leia o texto real da amostra. Os números de perda não podem dizer o que a saída diz. Leia-o.

4. Conte a amplitude de domínios. Seis domínios não relacionados em 700 passos = bandit saudável. Um domínio repetido 7 vezes = bandit preso.

5. Compare com avaliação externa. Se sua amostra parece boa para você, peça a alguém de fora da execução para lê-la. O desacordo deles é informação.

O Que Isso Conecta

- Atividade 22 (grow_a_language_model_checkpoints). cadência de sample_every alinha com cadência de checkpoint; ambos disparam a cada 100 passos.

- Atividade 21 (coherence-gated early stopping). Métricas de diversidade que param automaticamente o treinamento quando as amostras colapsam.

- Atividade 24 (grow_a_language_model_microgpt_to_andrea). colapso v1, contaminação v2.5, polimento v3 todos capturados (ou poderiam ter sido capturados) por auditoria de amostra.

Uma Verdade

A perda é um número. Ler amostras é como sabemos o que o número significa.

O Que Você Vai Observar?

Das cinco verificações de auditoria (nível de perda, outliers abaixo de 0,20, texto de amostra, amplitude de domínio, classificação externa), qual você priorizaria mais se treinasse seu próprio modelo? Escolha uma com 2-3 frases de raciocínio.