un — Aprendizado PAC: Da Teoria à Auditoria em Produção [DESCRIPTION /]

un

visitante

1 / ?

voltar às lições

Probably Approximately Correct

A Pergunta de Valiant (1984)

Leslie Valiant fez uma pergunta aparentemente simples: o que significa uma máquina aprender? Não “ela consegue memorizar?” Nem “ela consegue prever perfeitamente?” Em vez disso: ela consegue aprender de forma aproximadamente boa, com alta probabilidade, a partir de uma amostra finita, em tempo polinomial?

Essa formulação lhe rendeu o Turing Award em 2010 e fundou a teoria computacional do aprendizado.

PAC ε δ Budget Plane

Dois Botões

ε (epsilon) — tolerância ao erro. Aproximadamente correto significa erro ≤ ε. Menor ε = aprendizado mais rigoroso.

δ (delta) — parâmetro de confiança. Provavelmente significa probabilidade de sucesso ≥ 1 − δ. Menor δ = maior confiança exigida.

Definição

Uma classe de conceitos C é considerada PAC-aprendível se existir algum algoritmo tal que, para qualquer distribuição de dados D e qualquer conceito alvo c ∈ C, dados m exemplos extraídos de D e rotulados por c, o algoritmo retorne uma hipótese h que satisfaça:

P[erro(h) ≤ ε] ≥ 1 − δ

com m polinomial em 1/ε, 1/δ e no tamanho do conceito.

Em inglês: forneça exemplos suficientes e o modelo chega perto o bastante, com frequência suficiente, e “suficiente” não cresce exponencialmente.

Complexidade de Amostra para Espaços de Hipóteses Finitos

Se nosso espaço de hipóteses H contém um número finito de hipóteses candidatas, a análise clássica fornece:

m ≥ (1/ε)(ln|H| + ln(1/δ))

Leia a fórmula como um orçamento. Reduzir ε pela metade dobra o número de amostras necessárias. Reduzir δ pela metade adiciona apenas uma constante. Dobrar |H| adiciona apenas ln(2) amostras — crescimento logarítmico, extremamente controlado.

Dimensionamento de uma Amostra para uma Classe de Hipóteses

Um filtro de spam escolhe entre |H| = 1.000.000 conjuntos de regras candidatos. Queremos erro ε ≤ 0,05 com confiança 1 − δ = 0,99 (portanto δ = 0,01).

Aplique o limite de complexidade de amostra PAC para classes finitas m ≥ (1/ε)(ln|H| + ln(1/δ)) para calcular um tamanho de amostra m suficiente. Mostre a substituição de todos os três valores (ε, |H|, δ) e aproxime os valores de ln para uma casa decimal. Arredonde m para cima até um número inteiro.

Shattering e Dimensão VC

Quando os Espaços de Hipóteses se Tornam Infinitos

O limite m ≥ (1/ε)(ln|H| + ln(1/δ)) falha quando |H| = ∞. A maioria das classes de hipóteses úteis (classificadores lineares em ℝᵈ, árvores de decisão, redes neurais) contém infinitos candidatos. Vapnik & Chervonenkis resolveram isso por volta de 1971 com uma medida de complexidade mais rica: a dimensão VC.

VC Shattering Three Points

Shattering

Uma classe de hipóteses H shatters um conjunto de n pontos se H consegue produzir todas as rotulações possíveis desses n pontos (todas as 2ⁿ dicotomias). Classificadores lineares em ℝ² shatter qualquer conjunto de 3 pontos em posição geral: para cada uma das 8 possíveis rotulações +/− desses 3 pontos, existe uma reta que os separa corretamente.

Mas classificadores lineares em ℝ² não podem shatter 4 pontos dispostos em configuração XOR. Nenhuma reta separa o par diagonal do par antidiagonal.

Dimensão VC

VC(H) = o maior n tal que H shatter algum conjunto de n pontos. Para classificadores lineares em 2D: VC = 3. Para retângulos alinhados aos eixos em 2D: VC = 4. Para redes neurais com W pesos: VC ≤ O(W² log W) (Bartlett & Anthony 1999).

Complexidade de Amostra com Dimensão VC

Substitua ln|H| no nosso limite PAC pela dimensão VC d:

m = O((d/ε) log(1/ε) + (1/ε) log(1/δ))

A dimensão VC atua como nossa "complexidade efetiva" de uma classe infinita. Uma classe de hipóteses com baixa dimensão VC generaliza a partir de poucas amostras; uma classe com alta dimensão VC exige mais dados.

Dimensão VC como Contagem Efetiva de Hipóteses

Uma rede neural tem W = 10⁹ pesos. Pelo limite de Bartlett-Anthony, VC ≤ O(W² log W). Aproxime VC ≈ W² log₂ W.

Estime a VC para W = 10⁹. Depois insira no limite de amostra VC m ≈ (d/ε) ignorando fatores logarítmicos, com ε = 0,01. Compare m com o tamanho de todo o texto da internet pública (~10¹³ tokens). Indique se o PAC clássico prevê que nossa classe de hipóteses pode ser aprendida por PAC a partir de dados em escala da internet.

Descartando a Realizabilidade, Posteriores sobre Hipóteses

Duas Generalizações Importantes

O PAC clássico assume que nosso conceito-alvo c vive dentro da nossa classe de hipóteses H. Dados reais trazem ruído, rótulos incorretos e conceitos que nossa classe não consegue representar. Duas extensões lidam com isso.

PAC Bayes Posterior over Hypothesis Space

PAC Agnóstico

Abandonamos a suposição de que c ∈ H. Agora competimos contra nossa hipótese melhor-da-classe h* = argmin_{h ∈ H} risk(h). A forma do limite muda: em vez de nos aproximarmos da perfeição, nos aproximamos do melhor possível dentro de H.

Limite agnóstico: P[risk(h) ≤ risk(h*) + ε] ≥ 1 − δ com complexidade de amostra m = O(1/ε² × (VC(H) + log(1/δ))). Observe ε² em vez de ε no denominador: o aprendizado agnóstico exige mais amostras para a mesma precisão.

PAC-Bayes (McAllester 1999)

Passamos de escolher uma única hipótese para escolher uma distribuição sobre hipóteses. Começamos com um prior P. Observamos os dados. Derivamos o posterior Q. Os limites PAC-Bayes aplicam-se ao risco esperado sob Q:

𝔼_{h~Q}[risk(h)] ≤ 𝔼_{h~Q}[empirical_risk(h)] + √[(KL(Q‖P) + ln(2√n/δ)) / 2n]

KL(Q‖P) mede o quanto nossa posteriori se afastou da nossa priori. Duas interpretações:

1. Visão de compressão. Uma posteriori próxima da sua priori (KL pequeno) generaliza bem — pequeno custo de informação = pequena lacuna de generalização.

2. Visão bayesiana. Priori forte + atualização fraca dos dados = limite apertado; priori fraca + atualização pesada dos dados = limite mais frouxo.

Por que PAC-Bayes importa. Limites PAC-Bayes empíricos (Catoni 2007, Dziugaite & Roy 2017) fornecem garantias de generalização numericamente significativas para redes neurais reais, onde os limites PAC clássicos se tornam vácuos. Eles permanecem nossa ferramenta teórica mais apertada para generalização em modelos superparametrizados.

Leitura de um Limite PAC-Bayes

Suponha que treinamos uma rede com n = 50.000 exemplos rotulados. Após o treinamento, nossa posterior Q sobre os pesos tem KL(Q‖P) = 200 nats em relação a um prior Gaussiano P. O risco empírico sob Q é 0,10. Defina δ = 0,05.

Calcule o limite superior PAC-Bayes para o risco esperado. Mostre a substituição em √[(KL + ln(2√n/δ)) / 2n]. Arredonde ln(2√n/δ) para um número inteiro. Indique se o nosso limite é significativo (ou seja, prevê risco verdadeiro < 0,5).

Sobreparametrização e Descida Dupla

O Desastre Previsto pelo PAC Clássico

O PAC clássico prevê: mais parâmetros que amostras = overfitting catastrófico. Aprende perfeitamente nos dados de treino, generaliza aleatoriamente nos dados de teste. O limite VC prevê memorização sem aprendizagem.

Redes neurais modernas rotineiramente têm de 10× a 1000× mais parâmetros que amostras de treino e ainda assim generalizam. Isso não deveria acontecer segundo a teoria clássica. Acontece mesmo assim.

Curva de Dupla Descida

A Curva em U que Nos Ensinaram

Viés-variância clássico: à medida que a capacidade do modelo cresce, o erro de treinamento cai monotonicamente; o erro de teste primeiro cai (menos underfit), atinge um mínimo e depois sobe (overfit). Curva em U prevista pela teoria VC.

O Que Realmente Acontece — Dupla Descida

Belkin et al (2019) mostraram que o erro de teste segue nossa curva em U clássica até o limiar de interpolação (capacidade = #amostras), depois CAI NOVAMENTE após esse limiar. Modelos massivamente superparametrizados generalizam melhor do que modelos apenas suficientemente grandes.

Por Que o PAC Clássico Não Captura Isso

1. A suposição livre de distribuição é excessivamente pessimista. Dados reais possuem estrutura (baixa dimensão intrínseca, geometria de variedades). Os limites PAC valem para distribuições de pior caso; distribuições reais exploram estrutura que o SGD também explora.

2. Regularização implícita. O SGD em redes superparametrizadas encontra soluções interpoladoras de norma mínima ou complexidade mínima, não soluções arbitrárias. A teoria clássica assume o minimizador de risco empírico no pior caso; os algoritmos reais escolhem soluções benignas.

3. Definição incorreta da classe de hipóteses. A classe de hipóteses efetiva explorada pelo SGD é muito menor que o espaço nominal de pesos. Os posteriors PAC-Bayes capturam isso; a dimensão VC não.

Trabalhos teóricos modernos (Bartlett, Long, Lugosi, Tsigler 2020 sobre benign overfitting; Nakkiran et al 2020 sobre double descent) estão construindo uma teoria de generalização pós-PAC que considera nosso regime superparametrizado.

Diagnosticando uma Falha do PAC Clássico

Uma equipe de pesquisa treina uma rede com 1 bilhão de parâmetros em 100.000 exemplos rotulados. O PAC clássico prevê limites vácuos. Empiricamente, a acurácia de teste atinge 95%.

Identifique três razões concretas pelas quais o PAC clássico falha em prever esse sucesso. Para cada razão, nomeie um fenômeno (estrutura da distribuição, regularização implícita, *double descent*, concentração do posterior) e explique brevemente por que o PAC clássico não o captura. 2-3 frases por razão.

Kaplan, Chinchilla e o Dimensionamento da Inteligência Geral Automatizada [BLOCK_TYPE SECTION/STEP]

De Limites a Leis de Escala Empíricas

[BLOCK_TYPE SECTION/STEP]

O PAC clássico prevê o tamanho do conjunto de dados teoricamente e produz resultados vácuos. As leis de escala empíricas preveem o tamanho do conjunto de dados a partir da observação e realmente funcionam. Elas substituíram o PAC como nossa ferramenta prática de dimensionamento para modelos grandes. [BLOCK_TYPE SECTION/STEP]

[BLOCK_TYPE SECTION/STEP]

Superfície de Treinamento Ótima em Compute

Kaplan et al (2020)

A perda segue uma lei de potência nos parâmetros N, tokens do conjunto de dados D e computação C:

L(N) ≈ (Nc/N)^αN L(D) ≈ (Dc/D)^αD L(C) ≈ (Cc/C)^αC

Dobrar os parâmetros reduz a perda por um fator multiplicativo fixo. Dobrar os dados reduz a perda por outro fator fixo. Esses expoentes (αN, αD, αC) medem e preveem o comportamento de fronteira em muitas ordens de magnitude.

Hoffmann et al 2022 (Chinchilla)

Chinchilla mostrou que os expoentes de Kaplan superestimavam os parâmetros em relação aos dados. O treinamento compute-optimal requer aproximadamente 20 tokens por parâmetro:

D_opt ≈ 20 × N

O GPT-3 (175B parâmetros) foi treinado em ~300B tokens — sub-treinado em grande escala segundo a matemática do Chinchilla. Um modelo compute-optimal de 175B parâmetros requer ~3,5 trilhões de tokens.

A Barreira dos Dados

Escalar nossa contagem de parâmetros exige escalar proporcionalmente nossa contagem de tokens. O rastreamento público da web produz ~10¹³ tokens úteis. Uma inteligência geral automatizada hipotética de 10¹⁵ parâmetros exigiria ~2×10¹⁶ tokens — três ordens de magnitude além dos dados disponíveis na web.

Esta é a nossa parede de dados. As leis de escalonamento preveem que enfrentaremos uma escassez de corpus muito antes de uma escassez de computação. Dados sintéticos, corpora multimodais (vídeo, áudio, fluxos de sensores) e RL a partir do ambiente visam superar essa barreira.

O PAC clássico nos dizia (incorretamente) que precisaríamos de 10²¹ amostras. As leis de escalonamento nos dizem (calibradas à realidade) que precisamos de 2×10¹⁶. Ambos os números excedem o texto disponível. O trabalho de fronteira atual lida com o fechamento dessa lacuna.

Estimando um Corpus para Inteligência Geral Automatizada

Suponha que um laboratório de fronteira proponha um modelo de 10¹⁴ parâmetros e afirme que ele alcançará inteligência geral automatizada. Queremos dimensionar seu corpus de treinamento pela regra de Chinchilla.

Aplique D_opt ≈ 20 × N para estimar a contagem ótima de tokens para N = 10¹⁴ parâmetros. Compare com a web pública (~10¹³ tokens). Indique por qual fator ficamos aquém e nomeie duas estratégias que laboratórios de fronteira usam para fechar essa lacuna.

De Limites Teóricos a Medições em Produção

Pare de Calcular Limites; Comece a Medí-los

Limites PAC clássicos são vácuos. Limites PAC-Bayes são apertados sob suposições difíceis de verificar. Uma alternativa prática: medir ε empiricamente na sua distribuição real e atualizá-lo conforme o sistema opera.

Beta Posterior Tightening

Ideia 1 — Tornar a Cobertura um PAC Empírico

Um alvo make coverage executa N perguntas reservadas no seu sistema de consulta e mede duas taxas:

- cache_hit_rate — fração em que seu sistema encontrou uma resposta conhecida

- i_dont_know_rate — fração em que seu sistema adiou honestamente

Cada medição = um ensaio de Bernoulli. A partir das contagens observadas, calcule um intervalo de confiança de Wilson sobre a taxa real. Exemplo: N = 1000 consultas, i_dont_know_rate observado = 0.20 → IC 95% ≈ [0.177, 0.226]. O limite superior 0.226 funciona exatamente como um ε PAC com δ = 0.05, derivado de dados reais sobre a distribuição real, em vez de uma análise teórica de pior caso.

O vocabulário clássico do PAC se aplica (ε, δ, confiança). Diferente maquinaria (concentração binomial vs. teoria VC). Resultado mais apertado porque distribuições reais possuem estrutura explorável.

Ideia 2 — Auditoria PAC-Bayes via Eventos de Falsificação

Trate cada falsificação (resposta do sistema demonstravelmente errada) como evidência que atualiza a posteriori sobre a taxa real de erro ε:

1. Prior: ε ~ Beta(α₀, β₀). Escolha um prior fraco, ex.: Beta(1, 1) = uniforme.

2. Cada consulta produz um resultado de Bernoulli: falsificado (1) ou mantido (0).

3. Posterior após k falsificações em n consultas: Beta(α₀ + k, β₀ + n − k).

4. Média posterior: (α₀ + k) / (α₀ + β₀ + n) → taxa empírica de falsificação quando n → ∞.

5. Intervalo de credibilidade de 95% sobre ε estreita-se como 1/√n.

O Que Isso Nos Oferece

- Estimativa real de ε₀ a partir da implantação real, não teoria de pior caso

- Alarme anytime-valid: quando o intervalo de credibilidade posterior cruza o limiar do contrato, notificar alguém

- Confiança monotônica: mais consultas observadas → IC mais estreito → garantia mais forte

Técnicas relacionadas: previsão conforme com recalibração online (Vovk), testes sequenciais de razão de probabilidades (Wald), PAC-Bayes online (Haddouche & Guedj 2022). Mesma família, diferentes fundamentos matemáticos.

Calculando uma Posterior Beta em Falsificações

Nossa equipe executa uma auditoria de cobertura em um sistema de consultas em produção. Prior sobre a taxa real de erro ε: Beta(1, 1) (uniforme). Após 200 consultas de validação, observamos 8 falsificações.

Calcule (a) os parâmetros da posterior Beta(α, β) após observar esses dados; (b) a média posterior de ε; (c) o limite superior aproximado do intervalo de credibilidade de 95% usando μ + 2σ, onde σ = √(αβ/((α+β)²(α+β+1))). Em seguida, indique se você enviaria este sistema para produção caso seu contrato exija ε ≤ 0.10.