un — Crece un Modelo de Lenguaje: Control de Dados por Fases [DESCRIPTION /]

un

invitado

1 / ?

volver a las lecciones

El Problema de Bloqueo

Un Bandido Que Sigue Ganando

Vanilla UCB1 recalcula puntuaciones cada paso. Elige un brazo. Lo tira. Actualiza n_k & mean_reward(k). Repite. En una ejecución de entrenamiento larga con muchas fuentes, un solo brazo puede acumular una racha de altas recompensas, elevar su media, & volverse casi imposible de superar. Otros brazos se estancan en bajo n_k con medias obsoletas. Bloqueo.

El bloqueo daña a ANDREA de dos maneras:

1. Colapso de diversidad. Un modelo que entrena el 90% de los pasos en una fuente aprende los tics estilísticos de esa fuente. Las muestras generadas se desvían hacia patrones repetitivos que coinciden con la fuente dominante.

2. Exploración obsoleta. Los brazos con medias obsoletas no pueden recuperarse. Un brazo cuya media cayó temprano queda atascado en esa media incluso si el modelo ahora ha crecido lo suficiente como para extraer recompensa de él.

Una Fase Compra Tiempo

Solución: mantener un conjunto fijo de brazos de enfoque para una fase (múltiples pasos) antes de reevaluar. Una fase de 14 pasos significa que 14 pases hacia adelante impactan los mismos brazos de enfoque. Las recompensas medias se estabilizan. El ruido estocástico se promedia. Luego el bandido vuelve a tirar.

Longitud de Fase Variable

ANDREA elige la longitud de la fase al azar uniformemente de {7, 14, 21, 28, 42} pasos en cada límite de fase. Cinco valores, aleatorio uniforme. Fases cortas (7) reaccionan rápido a malas elecciones; fases largas (42) permiten que conjuntos de enfoque estables exploten completamente. El techo limita el daño: como máximo 42 pasos gastados en una configuración de enfoque mala antes de un re-lanzamiento forzado.

Dice Phase Timeline

Estadísticas de Longitud de Fase

ANDREA elige la longitud de la fase uniformemente al azar de {7, 14, 21, 28, 42}. Calcula (a) la longitud de fase esperada (promedio), (b) la longitud de fase máxima, (c) en 1,000 fases, los pasos totales esperados. Muestra tu aritmética.

1d3 (2-eye) & 1d4 (3-eye)

Notación de dados

Notación de mesa: NdM significa tirar N dados con M caras cada uno. 1d3 tira un dado de 3 caras, devolviendo un valor en {1, 2, 3}. 1d4 tira un dado de 4 caras, devolviendo {1, 2, 3, 4}. ANDREA también permite el resultado 0 por convención: una tirada de 0 significa fase completamente aleatoria (sin brazos de enfoque UCB).

Configuraciones de 2-Ojos vs 3-Ojos

La configuración de entrenamiento de ANDREA elige uno de dos modos de dados:

Configuración de 2 ojos (1d3). Posibles conteos de brazos de enfoque: {0, 1, 2, 3}. Resultado 0 reservado para fase aleatoria.

Configuración de 3 ojos (1d4). Posibles conteos de brazos de enfoque: {0, 1, 2, 3, 4}. Pools más grandes permiten fases más concentradas.

Aleatorio primero, UCB segundo

Independientemente de los resultados de los dados, ANDREA llena las ranuras de enfoque en dos pases:

1. Brazos aleatorios primero. Selecciona una fracción de ranuras de enfoque uniformemente al azar de todos los brazos disponibles. Esto fuerza variedad combinatoria en cada fase, independientemente de las clasificaciones UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>

2. UCB llena los espacios restantes. Calcula los puntajes UCB1 para los brazos no elegidos aún. Toma los brazos mejor clasificados restantes hasta llenar el conteo de espacios de enfoque.

El aleatorio primero importa. Si UCB se elige primero, un líder de racha siempre reclamaría un espacio. Con aleatorio primero, incluso el mejor brazo UCB puede quedarse fuera de una fase. La diversidad queda garantizada.

Fases Completamente Aleatorias

Cuando el dado sale 0, todo el conjunto de enfoque proviene de selecciones aleatorias. UCB no contribuye nada. Alrededor del 25% de las fases (1d4) o 33% de las fases (1d3) caen aquí. Las fases completamente aleatorias obligan al bandido a refrescar su muestra de brazos poco tirados, manteniendo las estimaciones de mean_reward honestas en todo el conjunto de brazos.

Probabilidades de Resultados del Dado

Bajo un dado 1d3 (configuración de 2 ojos) con resultados posibles {0, 1, 2, 3} todos igualmente probables, calcula (a) la probabilidad de una fase completamente aleatoria (dado=0), (b) la probabilidad de al menos un brazo UCB (dado >= 1), (c) en 100 fases, el conteo esperado de fases completamente aleatorias. Luego bajo 1d4 (configuración de 3 ojos), da (d) la probabilidad de una fase completamente aleatoria. Muestra tu razonamiento.

Limitando el Daño

Una Fase Mala Cuesta Hasta 42 Pasos

Supongamos que los rankings de UCB eligen un brazo de enfoque cuya media verdadera es mucho menor que su media observada. La fase lo fija. La recompensa se mantiene baja durante toda la fase. ¿Cuánto tiempo hasta que el bandido pueda corregir?

Longitud máxima de fase: 42 pasos. Después de 42 pasos, la fase termina, los dados se vuelven a tirar, los brazos de enfoque se barajan de nuevo. La mala elección no puede durar más de 42 pases hacia adelante.

Por qué 42 (y no 100, y no 1000)

Las fases largas permiten que las estimaciones de mean_reward se estabilicen. Teoría estadística: la varianza de la media de n muestras se reduce como 1/n. Pasar de 7 muestras a 42 muestras da 6x más muestras, sqrt(6) aprox 2.45x error estándar más ajustado. Después de 42 muestras, mean_reward se sitúa dentro de aproximadamente +/-15% de su valor verdadero (dependiendo de la varianza de la recompensa).

Pasado las 42 muestras, la ganancia se reduce: 100 muestras vs 42 muestras = 2.4x más, sqrt(2.4) aprox 1.55x error estándar más ajustado. El beneficio marginal disminuye a medida que crece el costo de un mal bloqueo. 42 pasos equilibra ambos.

Diversidad vs Convergencia

Fases cortas (7 pasos): las estimaciones de recompensa siguen siendo ruidosas, pero las malas selecciones cuestan poco. Fases largas (42 pasos): las estimaciones son precisas, pero las malas selecciones cuestan más. ANDREA mezcla longitudes de fases uniformemente para que ambos regímenes aparezcan en cada ejecución de entrenamiento.

Costo de Reconstrucción de Btok

Cada límite de fase activa una reconstrucción del archivo btok para los brazos de enfoque. La reconstrucción de btok se ejecuta en un hilo en segundo plano; CUDA recarga en caliente al cambiar mtime. La reconstrucción toma segundos; las fases deben ejecutarse lo suficientemente largas para que la sobrecarga de reconstrucción sea pequeña. 42 pasos a la velocidad de entrenamiento de ANDREA-120M superan cómodamente el tiempo de reconstrucción.

Razonamiento Sobre el Techo

ANDREA terminó una ejecución de entrenamiento de 1.000 pasos. El bandido seleccionó un mal brazo de enfoque en el paso 800. Sin el techo de 42 pasos, ese mal brazo podría persistir arbitrariamente largo. Con el techo de 42 pasos, ¿cuál es el conteo de pasos desperdiciados en el peor caso desde el paso 800? Luego explica en dos oraciones: (a) por qué un techo más largo (p. ej. 200 pasos) sería peor, y (b) por qué un techo más corto (p. ej. 7 pasos siempre) también sería peor.

Próximamente

Lo Que Tienes

El control de dados basado en fases envuelve UCB1 en tres reglas protectoras: longitud de fase variable (7-42), brazos aleatorios primero, fases aleatorias impulsadas por dados (25-33% puramente aleatorio). El techo de 42 pasos limita el daño; las fases aleatorias previenen el bloqueo; las longitudes variables mezclan velocidad de reacción con estabilidad de estimación.

Lo Que Queda

¿De dónde viene realmente la señal de recompensa que alimenta UCB? La Actividad 78 (atribución de recompensas) muestra cómo CUDA reporta la pérdida por fuente en cada paso, cómo un EMA por fuente rastrea la recompensa, & por qué ANDREA escala las recompensas crudas por 1000x antes de alimentar UCB1.

Los pisos y penalizaciones de época (actividad 79) añaden reglas protectoras adicionales sobre la salida del bandido, asegurando que las fuentes pequeñas no se queden sin recursos y que las fuentes grandes no se repitan hasta la memorización.

Referencia

Whitepaper de ANDREA, sección 3.2.