O Problema do Travamento
Um Bandido que Continua Vencendo
Vanilla UCB1 recalcula pontuações a cada passo. Escolhe um braço. Puxa ele. Atualiza n_k & mean_reward(k). Repete. Em uma execução de treinamento longa com muitas fontes, um único braço pode acumular uma sequência de recompensas altas, elevar sua média, & tornar-se quase impossível de superar. Outros braços estagnam em n_k baixo com médias desatualizadas. Travamento.
O travamento prejudica ANDREA de duas maneiras:
1. Colapso de diversidade. Um modelo que treina 90% dos passos em uma única fonte aprende os tiques estilísticos dessa fonte. As amostras de geração derivam para padrões repetitivos que combinam com a fonte dominante.
2. Exploração obsoleta. Braços com médias obsoletas não se recuperam. Um braço cuja média caiu cedo fica preso nessa média mesmo se o modelo agora tiver capacidade suficiente para extrair recompensa dele.
Uma Fase Compra Tempo
Solução: manter um conjunto fixo de braços de foco por uma fase (múltiplos passos) antes de reavaliar. Uma fase de 14 passos significa que 14 passadas forward atingem os mesmos braços de foco. As recompensas médias se estabilizam. O ruído estocástico é suavizado. Então o bandido rola novamente.
Comprimento de Fase Variável
ANDREA escolhe o comprimento da fase aleatoriamente de {7, 14, 21, 28, 42} passos em cada limite de fase. Cinco valores, aleatório uniforme. Fases curtas (7) reagem rápido a escolhas ruins; fases longas (42) deixam conjuntos de foco estáveis explorarem totalmente. O teto limita o dano: no máximo 42 passos gastos em uma configuração de foco ruim antes do re-roll forçado.
Estatísticas do Comprimento da Fase
1d3 (2-olhos) & 1d4 (3-olhos)
Notação de Dados
Notação de mesa: NdM significa rolar N dados com M faces cada. 1d3 rola um dado de 3 faces, retornando um valor em {1, 2, 3}. 1d4 rola um dado de 4 faces, retornando {1, 2, 3, 4}. ANDREA também permite o resultado 0 por convenção: um rolamento de 0 significa fase totalmente aleatória (sem braços de foco UCB).
Configurações 2-Olhos vs 3-Olhos
A configuração de treinamento da ANDREA escolhe um de dois modos de dados:
Configuração de 2-olhos (1d3). Contagens possíveis de braços de foco: {0, 1, 2, 3}. Resultado 0 reservado para fase aleatória.
Configuração de 3-olhos (1d4). Contagens possíveis de braços de foco: {0, 1, 2, 3, 4}. Pools maiores permitem fases mais concentradas.
Aleatório Primeiro, UCB Depois
Independentemente dos resultados dos dados, ANDREA preenche as vagas de foco em duas passadas:
1. Braços aleatórios primeiro. Escolha uma fração das vagas de foco uniformemente ao acaso de todos os braços disponíveis. Isso força variedade combinatória em cada fase, independentemente das classificações UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>
2. O UCB preenche os slots restantes. Calcule os escores UCB1 para os braços não escolhidos anteriormente. Pegue os braços de maior ranking restantes até preencher a contagem de slots de foco.
O aleatório-primeiro importa. Se o UCB fosse escolhido primeiro, um líder de sequência sempre reivindicaria um slot. Com aleatório-primeiro, mesmo o melhor braço UCB pode ficar de fora de uma fase. A diversidade permanece garantida.
Fases Puramente Aleatórias
Quando o dado rola 0, todo o conjunto de foco vem de escolhas aleatórias. O UCB não contribui nada. Cerca de 25% das fases (1d4) ou 33% das fases (1d3) caem aqui. Fases puramente aleatórias forçam o bandido a atualizar sua amostra de braços pouco puxados, mantendo as estimativas de mean_reward honestas em todo o pool de braços.
Probabilidades de Resultados do Dado
Limitando o Dano
Uma Fase Ruim Custa Até 42 Passos
Suponha que os ranks UCB escolham um braço de foco cuja média verdadeira é muito menor que sua média observada. A fase trava esse braço. A recompensa fica baixa para toda a fase. Quanto tempo até o bandido corrigir?
Comprimento máximo da fase: 42 passos. Após 42 passos, a fase termina, os dados são re-lançados, os braços de foco são re-embaralhados. A escolha ruim não pode durar mais que 42 passes forward.
Por que 42 (e não 100, e não 1000)
Fases longas permitem que as estimativas de mean_reward se estabilizem. Teoria estatística: a variância da média de n amostras diminui como 1/n. Passar de 7 amostras para 42 amostras dá 6x mais amostras, sqrt(6) approx 2.45x erro padrão mais apertado. Após 42 amostras, mean_reward fica dentro de aproximadamente +/-15% de seu valor verdadeiro (dependendo da variância da recompensa).
Após 42 amostras, o ganho diminui: 100 amostras vs 42 amostras = 2.4x mais, sqrt(2.4) approx 1.55x erro padrão mais apertado. O benefício marginal cai à medida que o custo de um lock-in ruim cresce. 42 passos equilibra os dois.
Diversidade vs Convergência
Fases curtas (7 passos): estimativas de recompensa permanecem ruidosas, mas escolhas ruins custam pouco. Fases longas (42 passos): estimativas precisas, mas escolhas ruins custam mais. ANDREA mistura comprimentos de fase uniformemente para que ambos os regimes apareçam em cada execução de treinamento.
Custo de Rebuild do Btok
Cada limite de fase aciona um rebuild do arquivo btok para os braços de foco. O rebuild do btok roda em uma thread de fundo; CUDA faz hot-reload na mudança de mtime. O rebuild leva segundos; as fases devem rodar tempo suficiente para que o overhead de rebuild permaneça pequeno. 42 passos na velocidade de treinamento ANDREA-120M excede confortavelmente o tempo de rebuild.
Raciocinando Sobre o Teto
Próximo
O Que Você Tem
O controle de dados baseado em fases envolve o UCB1 em três regras protetoras: comprimento de fase variável (7-42), braços aleatórios primeiro, fases aleatórias impulsionadas por dados (25-33% puramente aleatórias). O teto de 42 passos limita o dano; as fases aleatórias previnem travamento; os comprimentos variáveis misturam velocidade de reação com estabilidade da estimativa.
O Que Resta
De onde vem o sinal de recompensa que alimenta o UCB? A Atividade 78 (atribuição de recompensa) mostra como o CUDA relata perda por fonte a cada passo, como uma EMA por fonte rastreia a recompensa, & por que o ANDREA escala recompensas brutas por 1000x antes de alimentar o UCB1.
Pisos & penalidades de época (atividade 79) adicionam regras protetoras adicionais sobre a saída do bandido, garantindo que fontes pequenas não fiquem sem recursos & fontes grandes não sejam repetidas para memorização.
Referência
Whitepaper ANDREA, seção 3.2.