El Problema de Bloqueo
Un Bandido Que Sigue Ganando
Vanilla UCB1 recalcula puntuaciones cada paso. Elige un brazo. Lo tira. Actualiza n_k & mean_reward(k). Repite. En una ejecución de entrenamiento larga con muchas fuentes, un solo brazo puede acumular una racha de altas recompensas, elevar su media, & volverse casi imposible de superar. Otros brazos se estancan en bajo n_k con medias obsoletas. Bloqueo.
El bloqueo daña a ANDREA de dos maneras:
1. Colapso de diversidad. Un modelo que entrena el 90% de los pasos en una fuente aprende los tics estilísticos de esa fuente. Las muestras generadas se desvían hacia patrones repetitivos que coinciden con la fuente dominante.
2. Exploración obsoleta. Los brazos con medias obsoletas no pueden recuperarse. Un brazo cuya media cayó temprano queda atascado en esa media incluso si el modelo ahora ha crecido lo suficiente como para extraer recompensa de él.
Una Fase Compra Tiempo
Solución: mantener un conjunto fijo de brazos de enfoque para una fase (múltiples pasos) antes de reevaluar. Una fase de 14 pasos significa que 14 pases hacia adelante impactan los mismos brazos de enfoque. Las recompensas medias se estabilizan. El ruido estocástico se promedia. Luego el bandido vuelve a tirar.
Longitud de Fase Variable
ANDREA elige la longitud de la fase al azar uniformemente de {7, 14, 21, 28, 42} pasos en cada límite de fase. Cinco valores, aleatorio uniforme. Fases cortas (7) reaccionan rápido a malas elecciones; fases largas (42) permiten que conjuntos de enfoque estables exploten completamente. El techo limita el daño: como máximo 42 pasos gastados en una configuración de enfoque mala antes de un re-lanzamiento forzado.
Estadísticas de Longitud de Fase
1d3 (2-eye) & 1d4 (3-eye)
Notación de dados
Notación de mesa: NdM significa tirar N dados con M caras cada uno. 1d3 tira un dado de 3 caras, devolviendo un valor en {1, 2, 3}. 1d4 tira un dado de 4 caras, devolviendo {1, 2, 3, 4}. ANDREA también permite el resultado 0 por convención: una tirada de 0 significa fase completamente aleatoria (sin brazos de enfoque UCB).
Configuraciones de 2-Ojos vs 3-Ojos
La configuración de entrenamiento de ANDREA elige uno de dos modos de dados:
Configuración de 2 ojos (1d3). Posibles conteos de brazos de enfoque: {0, 1, 2, 3}. Resultado 0 reservado para fase aleatoria.
Configuración de 3 ojos (1d4). Posibles conteos de brazos de enfoque: {0, 1, 2, 3, 4}. Pools más grandes permiten fases más concentradas.
Aleatorio primero, UCB segundo
Independientemente de los resultados de los dados, ANDREA llena las ranuras de enfoque en dos pases:
1. Brazos aleatorios primero. Selecciona una fracción de ranuras de enfoque uniformemente al azar de todos los brazos disponibles. Esto fuerza variedad combinatoria en cada fase, independientemente de las clasificaciones UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>
2. UCB llena los espacios restantes. Calcula los puntajes UCB1 para los brazos no elegidos aún. Toma los brazos mejor clasificados restantes hasta llenar el conteo de espacios de enfoque.
El aleatorio primero importa. Si UCB se elige primero, un líder de racha siempre reclamaría un espacio. Con aleatorio primero, incluso el mejor brazo UCB puede quedarse fuera de una fase. La diversidad queda garantizada.
Fases Completamente Aleatorias
Cuando el dado sale 0, todo el conjunto de enfoque proviene de selecciones aleatorias. UCB no contribuye nada. Alrededor del 25% de las fases (1d4) o 33% de las fases (1d3) caen aquí. Las fases completamente aleatorias obligan al bandido a refrescar su muestra de brazos poco tirados, manteniendo las estimaciones de mean_reward honestas en todo el conjunto de brazos.
Probabilidades de Resultados del Dado
Limitando el Daño
Una Fase Mala Cuesta Hasta 42 Pasos
Supongamos que los rankings de UCB eligen un brazo de enfoque cuya media verdadera es mucho menor que su media observada. La fase lo fija. La recompensa se mantiene baja durante toda la fase. ¿Cuánto tiempo hasta que el bandido pueda corregir?
Longitud máxima de fase: 42 pasos. Después de 42 pasos, la fase termina, los dados se vuelven a tirar, los brazos de enfoque se barajan de nuevo. La mala elección no puede durar más de 42 pases hacia adelante.
Por qué 42 (y no 100, y no 1000)
Las fases largas permiten que las estimaciones de mean_reward se estabilicen. Teoría estadística: la varianza de la media de n muestras se reduce como 1/n. Pasar de 7 muestras a 42 muestras da 6x más muestras, sqrt(6) aprox 2.45x error estándar más ajustado. Después de 42 muestras, mean_reward se sitúa dentro de aproximadamente +/-15% de su valor verdadero (dependiendo de la varianza de la recompensa).
Pasado las 42 muestras, la ganancia se reduce: 100 muestras vs 42 muestras = 2.4x más, sqrt(2.4) aprox 1.55x error estándar más ajustado. El beneficio marginal disminuye a medida que crece el costo de un mal bloqueo. 42 pasos equilibra ambos.
Diversidad vs Convergencia
Fases cortas (7 pasos): las estimaciones de recompensa siguen siendo ruidosas, pero las malas selecciones cuestan poco. Fases largas (42 pasos): las estimaciones son precisas, pero las malas selecciones cuestan más. ANDREA mezcla longitudes de fases uniformemente para que ambos regímenes aparezcan en cada ejecución de entrenamiento.
Costo de Reconstrucción de Btok
Cada límite de fase activa una reconstrucción del archivo btok para los brazos de enfoque. La reconstrucción de btok se ejecuta en un hilo en segundo plano; CUDA recarga en caliente al cambiar mtime. La reconstrucción toma segundos; las fases deben ejecutarse lo suficientemente largas para que la sobrecarga de reconstrucción sea pequeña. 42 pasos a la velocidad de entrenamiento de ANDREA-120M superan cómodamente el tiempo de reconstrucción.
Razonamiento Sobre el Techo
Próximamente
Lo Que Tienes
El control de dados basado en fases envuelve UCB1 en tres reglas protectoras: longitud de fase variable (7-42), brazos aleatorios primero, fases aleatorias impulsadas por dados (25-33% puramente aleatorio). El techo de 42 pasos limita el daño; las fases aleatorias previenen el bloqueo; las longitudes variables mezclan velocidad de reacción con estabilidad de estimación.
Lo Que Queda
¿De dónde viene realmente la señal de recompensa que alimenta UCB? La Actividad 78 (atribución de recompensas) muestra cómo CUDA reporta la pérdida por fuente en cada paso, cómo un EMA por fuente rastrea la recompensa, & por qué ANDREA escala las recompensas crudas por 1000x antes de alimentar UCB1.
Los pisos y penalizaciones de época (actividad 79) añaden reglas protectoras adicionales sobre la salida del bandido, asegurando que las fuentes pequeñas no se queden sin recursos y que las fuentes grandes no se repitan hasta la memorización.
Referencia
Whitepaper de ANDREA, sección 3.2.