un — Cultiva un Modelo de Lenguaje: Auditoría de Muestra & Calificación Externa [DESCRIPTION /]

un

invitado

1 / ?

volver a las lecciones

Lección de v1: La Pérdida Se Ve Bien, la Salida Es Basura

Una Historia de Advertencia

ANDREA-120M v1 alcanzó una pérdida EMA de 3.43 en el paso 110K, muy por debajo de la casualidad aleatoria (ln(8449) = 9.04). El número se veía respetable. Las muestras no.

paso 80K: región región región región región región región
paso 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
paso 140K: juegos, juegos, juegos, juegos, juegos, juegos
paso 165K: Budy Budy Budy Budy Budy Budy Budy Budy

v1 no tenía monitoreo de muestras configurado. El modelo produjo basura en bucle de repetición desde el paso 80K en adelante & el entrenamiento continuó por 85K pasos más antes de que alguien lo notara. 10+ días de cómputo desperdiciados porque nadie leyó la salida.

Lo que Oculta la Pérdida

La pérdida de entropía cruzada mide qué tan sorprendido se siente el modelo con el siguiente token. Un modelo que emite region region region region parece no sorprendido por su propia salida (predijo la misma palabra cada vez). La pérdida numérica puede mantenerse baja mientras la calidad semántica colapsa.

La Corrección v2

sample_every = 100 pasos. Generar 420 tokens de forma libre. El early stopping con coherencia evalúa cada muestra en diversidad de bigramas, diversidad de trigramas, presencia de palabras en inglés y diversidad de caracteres (escala 0-100). Parada automática después de 5 muestras consecutivas con puntuación por debajo de 30. Retroprobado en v1: se habría activado en el paso 132K, ahorrando 3.8 días.

Leer muestras no es opcional. Leer muestras es cómo sabemos que la pérdida significa algo.

Pérdida vs Calidad de Muestras

v1 alcanzó una pérdida EMA de 3.43 (muy por debajo de 9.04 aleatorio) pero emitió 'region region region'. Explica en dos partes: (a) ¿CÓMO puede la pérdida mantenerse numéricamente razonable mientras la salida colapsa en repetición? (b) ¿QUÉ corrección estructural en v2 detecta esto sin depender de que un humano lea cada muestra?

ppl = exp(loss)

La Conversión

La pérdida de entropía cruzada se reporta en nats. La perplejidad reporta el número equivalente de tokens igualmente probables que el modelo considera en cada paso. Conversión: ppl = exp(loss).

Aleatorio sobre un vocabulario de 8449 tokens: loss = ln(8449) = 9.04, ppl = 8449. Predicción perfecta memorizada: loss = 0, ppl = 1.

Una Tabla de Referencia

loss	ppl	Lectura
9.04	8449	aleatorio sobre vocabulario completo
5.00	148	entrenamiento temprano, estructura básica
3.00	20	aprendiendo distribución de vocabulario
2.00	7	conocedor pero impreciso
1.00	2.7	emergencia de seguimiento de restricciones
0.70	2	frase de libro de texto
0.30	1	recuerdo factual, mayormente memorizado
0.13	1	ALERTA: subcadena memorizada
0.00	1	memorización perfecta

Pérdida por Muestra vs Pérdida EMA

La pérdida EMA (media móvil exponencial a lo largo de muchos pasos) informa sobre la salud general del entrenamiento. La pérdida por muestra informa sobre la calidad de una muestra específica. Las dos divergen: la EMA podría estar en 2.0 mientras que las muestras individuales caen en cualquier lugar desde 0.13 hasta 4.0 dependiendo de qué prompt seleccionó el bandit.

Leer la pérdida de muestras individuales es como detectamos valores atípicos. La pérdida EMA no nos dice nada sobre si una muestra memorizó un substring de repo-docs; la pérdida por muestra sí lo hace.

Leyendo Tres Valores de Pérdida

ANDREA-120M produjo tres muestras en rápida sucesión en el paso 112,584-112,668. (a) pérdida 0.30 ppl ?; (b) pérdida 0.74 ppl ?; (c) pérdida 1.94 ppl ?. Calcula cada ppl, luego indica el nivel de calidad que cada uno representa (memorized / textbook / constraint / imprecise).

Recorriendo la Ventana de Auditoría

Una Ventana de 700 Pasos

Entre el paso 111,996 y 112,668, ANDREA-120M produjo muestras que abarcan seis dominios de conocimiento no relacionados. Cada una cae en un nivel de pérdida:

Niveles de Pérdida de Auditoría de Muestras

Nivel 1: Recuerdo Factual (pérdida 0.30, ppl 1)

paso 112,584, biología

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

Dos hechos correctos. Carolina parakeet declarada extinta en 1939; black spider monkey extant. ppl 1 significa que el modelo eligió el token correcto en cada paso. Calificación externa: 9.5/10.

Nivel 2: Una línea de libro de texto (pérdida 0.74, ppl 2)

paso 112,668, procesamiento de señales

> [Fourier transform prompt]

> < La transformada de Fourier descompone las señales en componentes de frecuencia, permitiendo el análisis de las características de la señal y el filtrado en el dominio de la frecuencia.

Una definición de una oración de libro de texto. Descomposición temporal-frecuencial con términos de aplicación correctos. Calificación externa: 9.5/10.

Nivel 3: Seguimiento de restricciones (pérdida 1.05, ppl 3)

paso 112,248, poesía

> Escribe un haiku sobre la lluvia usando tres palabras que comiencen con 'r'.

> < El rítmico estribillo de la lluvia, Regueros en la ventana, Respiro del dolor de la vida.

Tres palabras con 'r' (Rain, Rivulets, Respite), tres líneas, estructura de haiku preservada, coherencia semántica alrededor de la lluvia. ppl 3 = el modelo consideró unos pocos candidatos en cada paso pero se mantuvo dentro de la restricción.

Nivel 4: Conocedor pero Impreciso (pérdida 1.94, ppl 7)

paso 112,500, herramientas de python

> ¿Cómo encuentro paquetes desactualizados en un proyecto de Python?

> < Usa pip list --outdated para ver la lista de paquetes pip en la gestión de tu proyecto, o debería ser vía pyenv para obtener paquetes más automáticos.

El comando correcto del kernel (pip list --outdated) emerge de los datos de entrenamiento. La fluidez en la redacción aún se está desarrollando. Confusión menor: pyenv gestiona versiones de Python, no paquetes. ppl 7 significa que el modelo consideró ~7 continuaciones plausibles en cada paso; no todas eran precisamente correctas.

Nivel 5: ALERTA, Subcadena Memorizada (pérdida 0.13, ppl 1)

paso 112,080, anómalo

La pérdida 0.13 está POR DEBAJO del nivel de libro de texto. El modelo está demasiado confiado en esta muestra. Diagnóstico: una subcadena memorizada de repo-docs, no chat aprendido. El bandido tiró de un brazo zombi repo-docstrings con peso 1.546 de un estado de ejecución anterior, & la muestra reprodujo un fragmento verbatim de datos de entrenamiento.

Una pérdida anómalamente baja es una advertencia de memorización, no una señal de calidad. Sub-0.20 significa: verifica si el modelo está generando o copiando.

Seis Dominios en 700 Pasos

Biología (periquito), procesamiento de señales (Fourier), poesía (haiku), herramientas de Python (pip), diálogo conversacional, diálogo de operaciones. Seis dominios no relacionados en 700 pasos nos dice que el bandit está haciendo trabajo diverso, no atascado en una sola fuente. La amplitud de dominios ES una métrica de calidad.

Diagnosticando Tres Muestras

Tres nuevas muestras llegan a tu ventana de auditoría. (a) pérdida 0.40, genera 'la fotosíntesis convierte la luz solar en energía química en los cloroplastos'. (b) pérdida 0.10, genera un fragmento verbatim de una docstring de Python. (c) pérdida 1.30, genera un soneto que sigue el esquema de rima ABAB pero con una rima ligeramente forzada. Para cada uno, nombra el nivel de calidad y indica tu acción: **ACCEPT** (aprendizaje genuino), **INVESTIGATE** (señal de anomalía), o **ACCEPT_WITH_NOTE** (imperfecto pero bandit saludable).

Por qué Enviar Muestras a Ojos Externos

Qué Captó la Evaluación Externa

La auditoría interna de muestras nos dijo que el modelo estaba produciendo biología, procesamiento de señales, poesía y python a demanda. La evaluación externa de calidad de chat calificó esas muestras como '9.5/10' y 'superando su peso en tareas de conocimiento a esta escala'.

Respuestas de la revisión interna: ¿el bandit hizo trabajo diverso? Respuestas de la revisión externa: ¿un lector humano calificaría estas salidas como buenas?

Por Qué Ambas Importan

La auditoría interna detecta fallos estructurales: colapso por repetición, picos de memorización, brazos zombis de baja diversidad. Niveles de pérdida, diversidad de n-gramas y amplitud de dominio son todos observables desde el proxy.

La calificación externa detecta fallos en la calidad semántica: hechos confiados pero incorrectos, frases incómodas, matices perdidos. Ninguno de esos aparece en los números de pérdida.

Metodología

El panel de entrenamiento de ANDREA en training.ai.unturf.com/dashboard es intencionalmente público y de solo lectura. Cualquiera puede consultar .loss.json, .samples.json y el estado del bandit en tiempo real. Los revisores externos tenían acceso a los mismos datos que el operador.

9.5/10 de un lector independiente, en muestras extraídas en el paso 112,584 de 200,000, con procedencia completa: ese resultado es reproducible, auditable y no manipulable. Las mismas muestras, los mismos valores de pérdida, el mismo estado del bandit son visibles para cualquiera que mire.

Dos Señales Independientes

Interno: baja pérdida + alta diversidad + cobertura multi-dominio = bandido saludable.

Externo: 9.5/10 de revisor independiente = tasas de salida buenas.

Ambas se alinean: el entrenamiento está convergiendo en recuerdo factual, seguimiento de restricciones y coherencia multi-párrafo. Si divergieran (baja pérdida pero calificación externa 3/10), tendríamos un problema de manipulación de métricas para investigar.

Dos Señales, Un Diagnóstico

Imagina que las muestras de ANDREA reciben calificación externa en el paso 100K y paso 150K. (a) Paso 100K: pérdida EMA interna 2.5, diversidad n-gram 70/100, calificación externa 3/10. ¿Qué sugiere la brecha entre interno y externo? (b) Paso 150K: pérdida EMA interna 2.0, diversidad 85/100, externo 9/10. ¿Qué sugiere la alineación de interno y externo? Da una oración por escenario.

Cinco Pasos Por Ventana de Auditoría

Una Auditoría, Cinco Verificaciones

1. Lee el nivel de pérdida. ppl = exp(loss). Compara con la tabla de cinco niveles.

2. Busca valores atípicos sub-0.20. Señal de memorización. Investiga antes de tratarlo como un resultado de calidad.

3. Lee el texto de la muestra real. Los números de pérdida no pueden decirte qué dice la salida. Léelo.

4. Contar amplitud de dominios. Seis dominios no relacionados en 700 pasos = bandido saludable. Un dominio repetido 7 veces = bandido atascado.

5. Comparar con calificación externa. Si tu muestra te parece buena, pídele a alguien fuera de la ejecución que la lea. Su desacuerdo es información.

A qué se conecta esto

- Actividad 22 (grow_a_language_model_checkpoints). Cadencia de sample_every se alinea con cadencia de checkpoint; ambos se activan cada 100 pasos.

- Actividad 21 (coherence-gated early stopping). Métricas de diversidad que detienen automáticamente el entrenamiento cuando las muestras colapsan.

- Actividad 24 (grow_a_language_model_microgpt_to_andrea). Colapso v1, contaminación v2.5, pulido v3 todos capturados (o podrían haber sido capturados) por auditoría de muestras.

Una Verdad

La pérdida es un número. Leer muestras es cómo sabemos qué significa ese número.

¿Qué Verás?

De las cinco verificaciones de auditoría (nivel de pérdida, valores atípicos sub-0.20, texto de muestra, amplitud de dominio, calificación externa), ¿cuál pondrías como la de mayor prioridad si entrenaras tu propio modelo? Elige una con 2-3 oraciones de razonamiento.