Le Problème de Verrouillage
Un Bandit Qui Continue à Gagner
Vanilla UCB1 recalcule les scores à chaque étape. Choisit un bras. Le tire. Met à jour n_k & mean_reward(k). Répète. Dans une longue exécution d'entraînement avec de nombreuses sources, un seul bras peut accumuler une série de hautes récompenses, faire monter sa moyenne, & devenir presque impossible à battre. Les autres bras stagnent avec un faible n_k et des moyennes périmées. Verrouillage.
Le verrouillage nuit à ANDREA de deux façons :
1. Effondrement de la diversité. Un modèle qui s'entraîne sur 90 % des étapes sur une seule source apprend les tics stylistiques de cette source. Les échantillons générés dérivent vers des motifs répétitifs correspondant à la source dominante.
2. Exploration périmée. Les bras avec des moyennes périmées ne peuvent pas se rétablir. Un bras dont la moyenne a chuté tôt reste bloqué à cette moyenne même si le modèle a maintenant suffisamment de capacité pour en extraire une récompense.
Une Phase Gagne du Temps
Solution : maintenir un ensemble fixe de bras focalisés pour une phase (plusieurs étapes) avant de réévaluer. Une phase de 14 étapes signifie que 14 passes avant frappent les mêmes bras focalisés. Les récompenses moyennes se stabilisent. Le bruit stochastique s'annule. Puis le bandit relance.
Longueur de Phase Variable
ANDREA choisit la longueur de phase au hasard uniformément parmi {7, 14, 21, 28, 42} étapes à chaque limite de phase. Cinq valeurs, aléatoire uniforme. Les phases courtes (7) réagissent vite aux mauvais choix ; les phases longues (42) permettent aux ensembles de focus stables d'exploiter pleinement. Le plafond limite les dégâts : au plus 42 étapes passées sur une mauvaise configuration de focus avant un nouveau tirage forcé.
Statistiques de longueur de phase
1d3 (2-eye) & 1d4 (3-eye)
Notation des dés
Notation de jeu de table : NdM signifie lancer N dés à M faces chacun. 1d3 lance un dé à 3 faces, renvoyant une valeur dans {1, 2, 3}. 1d4 lance un dé à 4 faces, renvoyant {1, 2, 3, 4}. ANDREA autorise également le résultat 0 par convention : un lancer de 0 signifie phase totalement aléatoire (pas de bras focalisés UCB).
Configurations 2-Eye vs 3-Eye
La configuration d'entraînement d'ANDREA choisit l'un des deux modes de dés :
Configuration 2-œil (1d3). Nombre possible de bras de focus : {0, 1, 2, 3}. Résultat 0 réservé pour la phase aléatoire.
Configuration 3-œil (1d4). Nombre possible de bras de focus : {0, 1, 2, 3, 4}. Des pools plus grands permettent des phases plus concentrées.
Aléatoire d'abord, UCB ensuite
Quel que soit le résultat des dés, ANDREA remplit les emplacements de focus en deux passes :
1. Bras aléatoires d'abord. Choisir une fraction d'emplacements de focus uniformément au hasard parmi tous les bras disponibles. Cela force une variété combinatoire à chaque phase, indépendamment des classements UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>
2. UCB remplit les emplacements restants. Calculez les scores UCB1 pour les bras non encore choisis. Prenez les bras les mieux classés restants jusqu'à ce que le nombre d'emplacements de focus soit rempli.
Le premier aléatoire est important. Si UCB était choisi en premier, un leader de série revendiquerait toujours un emplacement. Avec le premier aléatoire, même le meilleur bras UCB peut être exclu d'une phase. La diversité reste garantie.
Phases Purement Aléatoires
Quand le dé fait 0, l'ensemble de focus complet provient de sélections aléatoires. UCB ne contribue rien. Environ 25 % des phases (1d4) ou 33 % des phases (1d3) tombent ici. Les phases purement aléatoires forcent le bandit à rafraîchir son échantillon de bras peu tirés, maintenant les estimations de mean_reward honnêtes sur l'ensemble du pool de bras.
Probabilités des Résultats des Dés
Limiter les Dommages
Une Mauvaise Phase Coûte Jusqu'à 42 Étapes
Supposons que les rangs UCB choisissent un bras de focus dont la vraie moyenne est beaucoup plus basse que sa moyenne observée. La phase verrouille ce bras. La récompense reste basse pour toute la phase. Combien de temps jusqu'à ce que le bandit puisse corriger ?
Longueur de phase maximale : 42 étapes. Après 42 étapes, la phase se termine, les dés sont relancés, les bras de focus sont remélangés. La mauvaise sélection ne peut pas durer plus de 42 passes avant.
Pourquoi 42 (et pas 100, et pas 1000)
Les phases longues permettent aux estimations de mean_reward de se stabiliser. Théorie statistique : la variance d'une moyenne de n échantillons diminue comme 1/n. Passer de 7 échantillons à 42 échantillons donne 6x plus d'échantillons, sqrt(6) approx 2.45x d'erreur standard plus serrée. Après 42 échantillons, mean_reward se situe dans environ +/-15% de sa vraie valeur (selon la variance des récompenses).
Au-delà de 42 échantillons, le gain diminue : 100 échantillons vs 42 échantillons = 2.4x plus, sqrt(2.4) approx 1.55x d'erreur standard plus serrée. Le bénéfice marginal diminue alors que le coût d'un mauvais verrouillage augmente. 42 étapes équilibre les deux.
Diversité vs Convergence
Phases courtes (7 étapes) : les estimations de récompense restent bruitées, mais les mauvais choix coûtent peu. Phases longues (42 étapes) : les estimations sont précises, mais les mauvais choix coûtent plus. ANDREA mélange les longueurs de phases uniformément pour que les deux régimes apparaissent dans chaque entraînement.
Coût de reconstruction Btok
Chaque limite de phase déclenche une reconstruction du fichier btok pour les bras focalisés. La reconstruction btok s'exécute dans un thread en arrière-plan ; CUDA recharge à chaud lors du changement de mtime. La reconstruction prend quelques secondes ; les phases doivent être suffisamment longues pour que la surcharge de reconstruction reste faible. 42 étapes à la vitesse d'entraînement ANDREA-120M dépassent largement le temps de reconstruction.
Raisonner sur le plafond
À venir ensuite
Ce que vous avez
Le contrôle des dés basé sur les phases enveloppe UCB1 dans trois règles protectrices : longueur de phase variable (7-42), bras aléatoires en premier, phases aléatoires pilotées par les dés (25-33 % purement aléatoire). Le plafond de 42 étapes limite les dégâts ; les phases aléatoires empêchent le verrouillage ; les longueurs variables mélangent vitesse de réaction et stabilité des estimations.
Ce qui reste
D'où vient le signal de récompense qui alimente réellement UCB ? L'activité 78 (attribution de récompense) montre comment CUDA rapporte la perte par source à chaque étape, comment une EMA par source suit la récompense, & pourquoi ANDREA scale les récompenses brutes par 1000x avant d'alimenter UCB1.
Les planchers & pénalités d'époque (activité 79) ajoutent des règles protectrices supplémentaires sur la sortie du bandit, garantissant que les petites sources ne soient pas affamées & que les grandes sources ne soient pas répétées jusqu'à la mémorisation.
Référence
ANDREA whitepaper, section 3.2.