un — Faire croître un Modèle de Langage : Contrôle des Dés par Phases [DESCRIPTION /]

un

invité

1 / ?

retour aux leçons

Le Problème de Verrouillage

Un Bandit Qui Continue à Gagner

Vanilla UCB1 recalcule les scores à chaque étape. Choisit un bras. Le tire. Met à jour n_k & mean_reward(k). Répète. Dans une longue exécution d'entraînement avec de nombreuses sources, un seul bras peut accumuler une série de hautes récompenses, faire monter sa moyenne, & devenir presque impossible à battre. Les autres bras stagnent avec un faible n_k et des moyennes périmées. Verrouillage.

Le verrouillage nuit à ANDREA de deux façons :

1. Effondrement de la diversité. Un modèle qui s'entraîne sur 90 % des étapes sur une seule source apprend les tics stylistiques de cette source. Les échantillons générés dérivent vers des motifs répétitifs correspondant à la source dominante.

2. Exploration périmée. Les bras avec des moyennes périmées ne peuvent pas se rétablir. Un bras dont la moyenne a chuté tôt reste bloqué à cette moyenne même si le modèle a maintenant suffisamment de capacité pour en extraire une récompense.

Une Phase Gagne du Temps

Solution : maintenir un ensemble fixe de bras focalisés pour une phase (plusieurs étapes) avant de réévaluer. Une phase de 14 étapes signifie que 14 passes avant frappent les mêmes bras focalisés. Les récompenses moyennes se stabilisent. Le bruit stochastique s'annule. Puis le bandit relance.

Longueur de Phase Variable

ANDREA choisit la longueur de phase au hasard uniformément parmi {7, 14, 21, 28, 42} étapes à chaque limite de phase. Cinq valeurs, aléatoire uniforme. Les phases courtes (7) réagissent vite aux mauvais choix ; les phases longues (42) permettent aux ensembles de focus stables d'exploiter pleinement. Le plafond limite les dégâts : au plus 42 étapes passées sur une mauvaise configuration de focus avant un nouveau tirage forcé.

Dice Phase Timeline

Statistiques de longueur de phase

ANDREA choisit la longueur de phase uniformément au hasard parmi {7, 14, 21, 28, 42}. Calculez (a) la longueur de phase attendue (moyenne), (b) la longueur de phase maximale, (c) sur 1 000 phases, le nombre total d'étapes attendu. Montrez vos calculs.

1d3 (2-eye) & 1d4 (3-eye)

Notation des dés

Notation de jeu de table : NdM signifie lancer N dés à M faces chacun. 1d3 lance un dé à 3 faces, renvoyant une valeur dans {1, 2, 3}. 1d4 lance un dé à 4 faces, renvoyant {1, 2, 3, 4}. ANDREA autorise également le résultat 0 par convention : un lancer de 0 signifie phase totalement aléatoire (pas de bras focalisés UCB).

Configurations 2-Eye vs 3-Eye

La configuration d'entraînement d'ANDREA choisit l'un des deux modes de dés :

Configuration 2-œil (1d3). Nombre possible de bras de focus : {0, 1, 2, 3}. Résultat 0 réservé pour la phase aléatoire.

Configuration 3-œil (1d4). Nombre possible de bras de focus : {0, 1, 2, 3, 4}. Des pools plus grands permettent des phases plus concentrées.

Aléatoire d'abord, UCB ensuite

Quel que soit le résultat des dés, ANDREA remplit les emplacements de focus en deux passes :

1. Bras aléatoires d'abord. Choisir une fraction d'emplacements de focus uniformément au hasard parmi tous les bras disponibles. Cela force une variété combinatoire à chaque phase, indépendamment des classements UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>

2. UCB remplit les emplacements restants. Calculez les scores UCB1 pour les bras non encore choisis. Prenez les bras les mieux classés restants jusqu'à ce que le nombre d'emplacements de focus soit rempli.

Le premier aléatoire est important. Si UCB était choisi en premier, un leader de série revendiquerait toujours un emplacement. Avec le premier aléatoire, même le meilleur bras UCB peut être exclu d'une phase. La diversité reste garantie.

Phases Purement Aléatoires

Quand le dé fait 0, l'ensemble de focus complet provient de sélections aléatoires. UCB ne contribue rien. Environ 25 % des phases (1d4) ou 33 % des phases (1d3) tombent ici. Les phases purement aléatoires forcent le bandit à rafraîchir son échantillon de bras peu tirés, maintenant les estimations de mean_reward honnêtes sur l'ensemble du pool de bras.

Probabilités des Résultats des Dés

Sous un dé 1d3 (config 2-œil) avec des résultats possibles {0, 1, 2, 3} tous équiprobables, calculez (a) la probabilité d'une phase entièrement aléatoire (dé=0), (b) la probabilité d'au moins un bras UCB (dé >= 1), (c) sur 100 phases, le nombre attendu de phases entièrement aléatoires. Puis sous 1d4 (config 3-œil), donnez (d) la probabilité d'une phase entièrement aléatoire. Montrez votre raisonnement.

Limiter les Dommages

Une Mauvaise Phase Coûte Jusqu'à 42 Étapes

Supposons que les rangs UCB choisissent un bras de focus dont la vraie moyenne est beaucoup plus basse que sa moyenne observée. La phase verrouille ce bras. La récompense reste basse pour toute la phase. Combien de temps jusqu'à ce que le bandit puisse corriger ?

Longueur de phase maximale : 42 étapes. Après 42 étapes, la phase se termine, les dés sont relancés, les bras de focus sont remélangés. La mauvaise sélection ne peut pas durer plus de 42 passes avant.

Pourquoi 42 (et pas 100, et pas 1000)

Les phases longues permettent aux estimations de mean_reward de se stabiliser. Théorie statistique : la variance d'une moyenne de n échantillons diminue comme 1/n. Passer de 7 échantillons à 42 échantillons donne 6x plus d'échantillons, sqrt(6) approx 2.45x d'erreur standard plus serrée. Après 42 échantillons, mean_reward se situe dans environ +/-15% de sa vraie valeur (selon la variance des récompenses).

Au-delà de 42 échantillons, le gain diminue : 100 échantillons vs 42 échantillons = 2.4x plus, sqrt(2.4) approx 1.55x d'erreur standard plus serrée. Le bénéfice marginal diminue alors que le coût d'un mauvais verrouillage augmente. 42 étapes équilibre les deux.

Diversité vs Convergence

Phases courtes (7 étapes) : les estimations de récompense restent bruitées, mais les mauvais choix coûtent peu. Phases longues (42 étapes) : les estimations sont précises, mais les mauvais choix coûtent plus. ANDREA mélange les longueurs de phases uniformément pour que les deux régimes apparaissent dans chaque entraînement.

Coût de reconstruction Btok

Chaque limite de phase déclenche une reconstruction du fichier btok pour les bras focalisés. La reconstruction btok s'exécute dans un thread en arrière-plan ; CUDA recharge à chaud lors du changement de mtime. La reconstruction prend quelques secondes ; les phases doivent être suffisamment longues pour que la surcharge de reconstruction reste faible. 42 étapes à la vitesse d'entraînement ANDREA-120M dépassent largement le temps de reconstruction.

Raisonner sur le plafond

ANDREA a terminé une session d'entraînement de 1 000 étapes. Le bandit a choisi un mauvais bras focalisé à l'étape 800. Sans le plafond de 42 étapes, ce mauvais bras pourrait persister indéfiniment. Avec le plafond de 42 étapes, quel est le nombre maximal d'étapes gaspillées à partir de l'étape 800 ? Puis expliquez en deux phrases : (a) pourquoi un plafond plus long (ex. 200 étapes) serait pire, & (b) pourquoi un plafond plus court (ex. 7 étapes toujours) serait aussi pire.

À venir ensuite

Ce que vous avez

Le contrôle des dés basé sur les phases enveloppe UCB1 dans trois règles protectrices : longueur de phase variable (7-42), bras aléatoires en premier, phases aléatoires pilotées par les dés (25-33 % purement aléatoire). Le plafond de 42 étapes limite les dégâts ; les phases aléatoires empêchent le verrouillage ; les longueurs variables mélangent vitesse de réaction et stabilité des estimations.

Ce qui reste

D'où vient le signal de récompense qui alimente réellement UCB ? L'activité 78 (attribution de récompense) montre comment CUDA rapporte la perte par source à chaque étape, comment une EMA par source suit la récompense, & pourquoi ANDREA scale les récompenses brutes par 1000x avant d'alimenter UCB1.

Les planchers & pénalités d'époque (activité 79) ajoutent des règles protectrices supplémentaires sur la sortie du bandit, garantissant que les petites sources ne soient pas affamées & que les grandes sources ne soient pas répétées jusqu'à la mémorisation.

Référence

ANDREA whitepaper, section 3.2.