Lección de v1: La Pérdida Se Ve Bien, la Salida Es Basura
Una Historia de Advertencia
ANDREA-120M v1 alcanzó una pérdida EMA de 3.43 en el paso 110K, muy por debajo de la casualidad aleatoria (ln(8449) = 9.04). El número se veía respetable. Las muestras no.
paso 80K: región región región región región región región
paso 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
paso 140K: juegos, juegos, juegos, juegos, juegos, juegos
paso 165K: Budy Budy Budy Budy Budy Budy Budy Budy
v1 no tenía monitoreo de muestras configurado. El modelo produjo basura en bucle de repetición desde el paso 80K en adelante & el entrenamiento continuó por 85K pasos más antes de que alguien lo notara. 10+ días de cómputo desperdiciados porque nadie leyó la salida.
Lo que Oculta la Pérdida
La pérdida de entropía cruzada mide qué tan sorprendido se siente el modelo con el siguiente token. Un modelo que emite region region region region parece no sorprendido por su propia salida (predijo la misma palabra cada vez). La pérdida numérica puede mantenerse baja mientras la calidad semántica colapsa.
La Corrección v2
sample_every = 100 pasos. Generar 420 tokens de forma libre. El early stopping con coherencia evalúa cada muestra en diversidad de bigramas, diversidad de trigramas, presencia de palabras en inglés y diversidad de caracteres (escala 0-100). Parada automática después de 5 muestras consecutivas con puntuación por debajo de 30. Retroprobado en v1: se habría activado en el paso 132K, ahorrando 3.8 días.
Leer muestras no es opcional. Leer muestras es cómo sabemos que la pérdida significa algo.
Pérdida vs Calidad de Muestras
ppl = exp(loss)
La Conversión
La pérdida de entropía cruzada se reporta en nats. La perplejidad reporta el número equivalente de tokens igualmente probables que el modelo considera en cada paso. Conversión: ppl = exp(loss).
Aleatorio sobre un vocabulario de 8449 tokens: loss = ln(8449) = 9.04, ppl = 8449. Predicción perfecta memorizada: loss = 0, ppl = 1.
Una Tabla de Referencia
| loss | ppl | Lectura |
|---|---|---|
| 9.04 | 8449 | aleatorio sobre vocabulario completo |
| 5.00 | 148 | entrenamiento temprano, estructura básica |
| 3.00 | 20 | aprendiendo distribución de vocabulario |
| 2.00 | 7 | conocedor pero impreciso |
| 1.00 | 2.7 | emergencia de seguimiento de restricciones |
| 0.70 | 2 | frase de libro de texto |
| 0.30 | 1 | recuerdo factual, mayormente memorizado |
| 0.13 | 1 | ALERTA: subcadena memorizada |
| 0.00 | 1 | memorización perfecta |
Pérdida por Muestra vs Pérdida EMA
La pérdida EMA (media móvil exponencial a lo largo de muchos pasos) informa sobre la salud general del entrenamiento. La pérdida por muestra informa sobre la calidad de una muestra específica. Las dos divergen: la EMA podría estar en 2.0 mientras que las muestras individuales caen en cualquier lugar desde 0.13 hasta 4.0 dependiendo de qué prompt seleccionó el bandit.
Leer la pérdida de muestras individuales es como detectamos valores atípicos. La pérdida EMA no nos dice nada sobre si una muestra memorizó un substring de repo-docs; la pérdida por muestra sí lo hace.
Leyendo Tres Valores de Pérdida
Recorriendo la Ventana de Auditoría
Una Ventana de 700 Pasos
Entre el paso 111,996 y 112,668, ANDREA-120M produjo muestras que abarcan seis dominios de conocimiento no relacionados. Cada una cae en un nivel de pérdida:
Nivel 1: Recuerdo Factual (pérdida 0.30, ppl 1)
paso 112,584, biología
> [extinction prompt]
> < black spider montano is alive, carolina parakeet is extinct.
Dos hechos correctos. Carolina parakeet declarada extinta en 1939; black spider monkey extant. ppl 1 significa que el modelo eligió el token correcto en cada paso. Calificación externa: 9.5/10.
Nivel 2: Una línea de libro de texto (pérdida 0.74, ppl 2)
paso 112,668, procesamiento de señales
> [Fourier transform prompt]
> < La transformada de Fourier descompone las señales en componentes de frecuencia, permitiendo el análisis de las características de la señal y el filtrado en el dominio de la frecuencia.
Una definición de una oración de libro de texto. Descomposición temporal-frecuencial con términos de aplicación correctos. Calificación externa: 9.5/10.
Nivel 3: Seguimiento de restricciones (pérdida 1.05, ppl 3)
paso 112,248, poesía
> Escribe un haiku sobre la lluvia usando tres palabras que comiencen con 'r'.
> < El rítmico estribillo de la lluvia, Regueros en la ventana, Respiro del dolor de la vida.
Tres palabras con 'r' (Rain, Rivulets, Respite), tres líneas, estructura de haiku preservada, coherencia semántica alrededor de la lluvia. ppl 3 = el modelo consideró unos pocos candidatos en cada paso pero se mantuvo dentro de la restricción.
Nivel 4: Conocedor pero Impreciso (pérdida 1.94, ppl 7)
paso 112,500, herramientas de python
> ¿Cómo encuentro paquetes desactualizados en un proyecto de Python?
> < Usa pip list --outdated para ver la lista de paquetes pip en la gestión de tu proyecto, o debería ser vía pyenv para obtener paquetes más automáticos.
El comando correcto del kernel (pip list --outdated) emerge de los datos de entrenamiento. La fluidez en la redacción aún se está desarrollando. Confusión menor: pyenv gestiona versiones de Python, no paquetes. ppl 7 significa que el modelo consideró ~7 continuaciones plausibles en cada paso; no todas eran precisamente correctas.
Nivel 5: ALERTA, Subcadena Memorizada (pérdida 0.13, ppl 1)
paso 112,080, anómalo
La pérdida 0.13 está POR DEBAJO del nivel de libro de texto. El modelo está demasiado confiado en esta muestra. Diagnóstico: una subcadena memorizada de repo-docs, no chat aprendido. El bandido tiró de un brazo zombi repo-docstrings con peso 1.546 de un estado de ejecución anterior, & la muestra reprodujo un fragmento verbatim de datos de entrenamiento.
Una pérdida anómalamente baja es una advertencia de memorización, no una señal de calidad. Sub-0.20 significa: verifica si el modelo está generando o copiando.
Seis Dominios en 700 Pasos
Biología (periquito), procesamiento de señales (Fourier), poesía (haiku), herramientas de Python (pip), diálogo conversacional, diálogo de operaciones. Seis dominios no relacionados en 700 pasos nos dice que el bandit está haciendo trabajo diverso, no atascado en una sola fuente. La amplitud de dominios ES una métrica de calidad.
Diagnosticando Tres Muestras
Por qué Enviar Muestras a Ojos Externos
Qué Captó la Evaluación Externa
La auditoría interna de muestras nos dijo que el modelo estaba produciendo biología, procesamiento de señales, poesía y python a demanda. La evaluación externa de calidad de chat calificó esas muestras como '9.5/10' y 'superando su peso en tareas de conocimiento a esta escala'.
Respuestas de la revisión interna: ¿el bandit hizo trabajo diverso? Respuestas de la revisión externa: ¿un lector humano calificaría estas salidas como buenas?
Por Qué Ambas Importan
La auditoría interna detecta fallos estructurales: colapso por repetición, picos de memorización, brazos zombis de baja diversidad. Niveles de pérdida, diversidad de n-gramas y amplitud de dominio son todos observables desde el proxy.
La calificación externa detecta fallos en la calidad semántica: hechos confiados pero incorrectos, frases incómodas, matices perdidos. Ninguno de esos aparece en los números de pérdida.
Metodología
El panel de entrenamiento de ANDREA en training.ai.unturf.com/dashboard es intencionalmente público y de solo lectura. Cualquiera puede consultar .loss.json, .samples.json y el estado del bandit en tiempo real. Los revisores externos tenían acceso a los mismos datos que el operador.
9.5/10 de un lector independiente, en muestras extraídas en el paso 112,584 de 200,000, con procedencia completa: ese resultado es reproducible, auditable y no manipulable. Las mismas muestras, los mismos valores de pérdida, el mismo estado del bandit son visibles para cualquiera que mire.
Dos Señales Independientes
Interno: baja pérdida + alta diversidad + cobertura multi-dominio = bandido saludable.
Externo: 9.5/10 de revisor independiente = tasas de salida buenas.
Ambas se alinean: el entrenamiento está convergiendo en recuerdo factual, seguimiento de restricciones y coherencia multi-párrafo. Si divergieran (baja pérdida pero calificación externa 3/10), tendríamos un problema de manipulación de métricas para investigar.
Dos Señales, Un Diagnóstico
Cinco Pasos Por Ventana de Auditoría
Una Auditoría, Cinco Verificaciones
1. Lee el nivel de pérdida. ppl = exp(loss). Compara con la tabla de cinco niveles.
2. Busca valores atípicos sub-0.20. Señal de memorización. Investiga antes de tratarlo como un resultado de calidad.
3. Lee el texto de la muestra real. Los números de pérdida no pueden decirte qué dice la salida. Léelo.
4. Contar amplitud de dominios. Seis dominios no relacionados en 700 pasos = bandido saludable. Un dominio repetido 7 veces = bandido atascado.
5. Comparar con calificación externa. Si tu muestra te parece buena, pídele a alguien fuera de la ejecución que la lea. Su desacuerdo es información.
A qué se conecta esto
- Actividad 22 (grow_a_language_model_checkpoints). Cadencia de sample_every se alinea con cadencia de checkpoint; ambos se activan cada 100 pasos.
- Actividad 21 (coherence-gated early stopping). Métricas de diversidad que detienen automáticamente el entrenamiento cuando las muestras colapsan.
- Actividad 24 (grow_a_language_model_microgpt_to_andrea). Colapso v1, contaminación v2.5, pulido v3 todos capturados (o podrían haber sido capturados) por auditoría de muestras.
Una Verdad
La pérdida es un número. Leer muestras es cómo sabemos qué significa ese número.