English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

visitante
1 / ?

O Problema do Travamento

Um Bandido que Continua Vencendo

Vanilla UCB1 recalcula pontuações a cada passo. Escolhe um braço. Puxa ele. Atualiza n_k & mean_reward(k). Repete. Em uma execução de treinamento longa com muitas fontes, um único braço pode acumular uma sequência de recompensas altas, elevar sua média, & tornar-se quase impossível de superar. Outros braços estagnam em n_k baixo com médias desatualizadas. Travamento.


O travamento prejudica ANDREA de duas maneiras:


1. Colapso de diversidade. Um modelo que treina 90% dos passos em uma única fonte aprende os tiques estilísticos dessa fonte. As amostras de geração derivam para padrões repetitivos que combinam com a fonte dominante.

2. Exploração obsoleta. Braços com médias obsoletas não se recuperam. Um braço cuja média caiu cedo fica preso nessa média mesmo se o modelo agora tiver capacidade suficiente para extrair recompensa dele.


Uma Fase Compra Tempo

Solução: manter um conjunto fixo de braços de foco por uma fase (múltiplos passos) antes de reavaliar. Uma fase de 14 passos significa que 14 passadas forward atingem os mesmos braços de foco. As recompensas médias se estabilizam. O ruído estocástico é suavizado. Então o bandido rola novamente.


Comprimento de Fase Variável

ANDREA escolhe o comprimento da fase aleatoriamente de {7, 14, 21, 28, 42} passos em cada limite de fase. Cinco valores, aleatório uniforme. Fases curtas (7) reagem rápido a escolhas ruins; fases longas (42) deixam conjuntos de foco estáveis explorarem totalmente. O teto limita o dano: no máximo 42 passos gastos em uma configuração de foco ruim antes do re-roll forçado.


Dice Phase Timeline

Estatísticas do Comprimento da Fase

ANDREA escolhe o comprimento da fase uniformemente ao acaso de {7, 14, 21, 28, 42}. Calcule (a) o comprimento da fase esperado (média), (b) o comprimento máximo da fase, (c) em 1.000 fases, os passos totais esperados. Mostre sua aritmética.

1d3 (2-olhos) & 1d4 (3-olhos)

Notação de Dados

Notação de mesa: NdM significa rolar N dados com M faces cada. 1d3 rola um dado de 3 faces, retornando um valor em {1, 2, 3}. 1d4 rola um dado de 4 faces, retornando {1, 2, 3, 4}. ANDREA também permite o resultado 0 por convenção: um rolamento de 0 significa fase totalmente aleatória (sem braços de foco UCB).


Configurações 2-Olhos vs 3-Olhos

A configuração de treinamento da ANDREA escolhe um de dois modos de dados:


Configuração de 2-olhos (1d3). Contagens possíveis de braços de foco: {0, 1, 2, 3}. Resultado 0 reservado para fase aleatória.


Configuração de 3-olhos (1d4). Contagens possíveis de braços de foco: {0, 1, 2, 3, 4}. Pools maiores permitem fases mais concentradas.


Aleatório Primeiro, UCB Depois

Independentemente dos resultados dos dados, ANDREA preenche as vagas de foco em duas passadas:


1. Braços aleatórios primeiro. Escolha uma fração das vagas de foco uniformemente ao acaso de todos os braços disponíveis. Isso força variedade combinatória em cada fase, independentemente das classificações UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>

2. O UCB preenche os slots restantes. Calcule os escores UCB1 para os braços não escolhidos anteriormente. Pegue os braços de maior ranking restantes até preencher a contagem de slots de foco.


O aleatório-primeiro importa. Se o UCB fosse escolhido primeiro, um líder de sequência sempre reivindicaria um slot. Com aleatório-primeiro, mesmo o melhor braço UCB pode ficar de fora de uma fase. A diversidade permanece garantida.


Fases Puramente Aleatórias

Quando o dado rola 0, todo o conjunto de foco vem de escolhas aleatórias. O UCB não contribui nada. Cerca de 25% das fases (1d4) ou 33% das fases (1d3) caem aqui. Fases puramente aleatórias forçam o bandido a atualizar sua amostra de braços pouco puxados, mantendo as estimativas de mean_reward honestas em todo o pool de braços.

Probabilidades de Resultados do Dado

Sob 1d3 dado (configuração 2-olhos) com resultados possíveis {0, 1, 2, 3} todos igualmente prováveis, calcule (a) probabilidade de uma fase totalmente aleatória (dado=0), (b) probabilidade de pelo menos um braço UCB (dado >= 1), (c) em 100 fases, a contagem esperada de fases totalmente aleatórias. Então sob 1d4 (configuração 3-olhos), dê (d) a probabilidade de uma fase totalmente aleatória. Mostre seu raciocínio.

Limitando o Dano

Uma Fase Ruim Custa Até 42 Passos

Suponha que os ranks UCB escolham um braço de foco cuja média verdadeira é muito menor que sua média observada. A fase trava esse braço. A recompensa fica baixa para toda a fase. Quanto tempo até o bandido corrigir?


Comprimento máximo da fase: 42 passos. Após 42 passos, a fase termina, os dados são re-lançados, os braços de foco são re-embaralhados. A escolha ruim não pode durar mais que 42 passes forward.


Por que 42 (e não 100, e não 1000)

Fases longas permitem que as estimativas de mean_reward se estabilizem. Teoria estatística: a variância da média de n amostras diminui como 1/n. Passar de 7 amostras para 42 amostras dá 6x mais amostras, sqrt(6) approx 2.45x erro padrão mais apertado. Após 42 amostras, mean_reward fica dentro de aproximadamente +/-15% de seu valor verdadeiro (dependendo da variância da recompensa).


Após 42 amostras, o ganho diminui: 100 amostras vs 42 amostras = 2.4x mais, sqrt(2.4) approx 1.55x erro padrão mais apertado. O benefício marginal cai à medida que o custo de um lock-in ruim cresce. 42 passos equilibra os dois.


Diversidade vs Convergência

Fases curtas (7 passos): estimativas de recompensa permanecem ruidosas, mas escolhas ruins custam pouco. Fases longas (42 passos): estimativas precisas, mas escolhas ruins custam mais. ANDREA mistura comprimentos de fase uniformemente para que ambos os regimes apareçam em cada execução de treinamento.


Custo de Rebuild do Btok

Cada limite de fase aciona um rebuild do arquivo btok para os braços de foco. O rebuild do btok roda em uma thread de fundo; CUDA faz hot-reload na mudança de mtime. O rebuild leva segundos; as fases devem rodar tempo suficiente para que o overhead de rebuild permaneça pequeno. 42 passos na velocidade de treinamento ANDREA-120M excede confortavelmente o tempo de rebuild.

Raciocinando Sobre o Teto

ANDREA terminou uma execução de treinamento de 1.000 passos. O bandit escolheu um braço de foco ruim no passo 800. Sem o teto de 42 passos, esse braço ruim poderia persistir arbitrariamente longo. Com o teto de 42 passos, qual é a contagem de passos desperdiçados no pior caso a partir do passo 800? Então explique em duas frases: (a) por que um teto mais longo (ex. 200 passos) seria pior, & (b) por que um teto mais curto (ex. 7 passos sempre) também seria pior.

Próximo

O Que Você Tem

O controle de dados baseado em fases envolve o UCB1 em três regras protetoras: comprimento de fase variável (7-42), braços aleatórios primeiro, fases aleatórias impulsionadas por dados (25-33% puramente aleatórias). O teto de 42 passos limita o dano; as fases aleatórias previnem travamento; os comprimentos variáveis misturam velocidade de reação com estabilidade da estimativa.


O Que Resta

De onde vem o sinal de recompensa que alimenta o UCB? A Atividade 78 (atribuição de recompensa) mostra como o CUDA relata perda por fonte a cada passo, como uma EMA por fonte rastreia a recompensa, & por que o ANDREA escala recompensas brutas por 1000x antes de alimentar o UCB1.


Pisos & penalidades de época (atividade 79) adicionam regras protetoras adicionais sobre a saída do bandido, garantindo que fontes pequenas não fiquem sem recursos & fontes grandes não sejam repetidas para memorização.


Referência

Whitepaper ANDREA, seção 3.2.