un — Geometría del Aprendizaje PAC

un

invitado

1 / ?

volver a las lecciones

PAC como un Plano de Dos Ejes

Dos Ejes, Una Superficie de Recuento de Muestras

Grafica ε en el eje horizontal (tolerancia de error, rango de 0 a 1). Grafica δ en el eje vertical (probabilidad de fallo, rango de 0 a 1). Cada punto en este cuadrado unitario corresponde a un par de demanda (ε, δ).

PAC ε δ Budget Plane

Por encima de cada punto se encuentra un valor de recuento de muestras m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Juntos, esos valores m trazan una superficie curva por encima de nuestro cuadrado. Las demandas más estrictas (ε menor, δ menor) elevan nuestra superficie; las demandas más relajadas la aplanan.

Líneas de Contorno de Muestras Isométricas

Proyecta nuestra superficie hacia abajo al plano como contornos iso-m. Cada par (ε, δ) en un único contorno requiere nuestro mismo presupuesto de muestras. Muévete a lo largo de un contorno para intercambiar tolerancia de error por confianza a costo fijo.

Reducir a la Mitad un Eje

Reducir a la mitad ε a lo largo de nuestro eje horizontal mueve m hacia arriba por factor 2 (lineal en 1/ε). Reducir a la mitad δ a lo largo de nuestro eje vertical mueve m hacia arriba por ln(2) ≈ 0,69 (logarítmico en 1/δ). Geometría nos dice: la tolerancia de error lleva un costo más pronunciado que la confianza.

Leyendo la Superficie Presupuestaria

Nos sentamos en el punto (ε = 0,05, δ = 0,05) para la clase de hipótesis |H| = 10⁶. Requisito de muestras m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.

(a) Calcula el nuevo requisito de muestras m₁ en (ε = 0,025, δ = 0,05) — error a la mitad, misma confianza. (b) Calcula m₂ en (ε = 0,05, δ = 0,025) — mismo error, probabilidad de fallo a la mitad. (c) ¿Cuál eje lleva el costo de muestras más pronunciado, & en qué proporción?

Dicotomías en Nubes de Puntos

Cómo se ve la Fragmentación

Coloca n puntos en nuestro plano. Elige una clase de hipótesis (clasificadores lineales = líneas rectas). Cuenta de cuántas formas distintas nuestra clase puede etiquetar esos n puntos (+/− a cada lado de una línea). Llama a este conteo Π_H(n).

VC Shattering Three Points

Si Π_H(n) = 2ⁿ, nuestra clase fragmenta ese conjunto de puntos — puede producir cada etiquetado posible. Si Π_H(n) < 2ⁿ, algunos etiquetados no pueden ocurrir.

Tres Puntos en Posición General

Los clasificadores lineales en ℝ² fragmentan cualquier 3 puntos no colineales. 2³ = 8 etiquetados; todos 8 alcanzables por alguna línea. Elige cualesquiera 3 puntos; para cada etiquetado ±/±, dibuja una línea que separe positivos de negativos.

Cuatro Puntos Se Niegan a Fragmentarse

Coloca 4 puntos en las esquinas de un cuadrado. Intenta etiquetar el par diagonal como positivo & el par anti-diagonal como negativo (etiquetado XOR). Ninguna línea recta los separa. Entonces Π_H(4) ≤ 14 < 16 = 2⁴.

Dimensión VC como Tamaño Máximo de Fragmentación

VC(linear ℝ²) = 3. Podemos fragmentar 3 puntos; no podemos fragmentar 4. VC cuenta la capacidad máxima de dicotomía de nuestra clase de hipótesis.

Intuición Geométrica

VC más alto = nuestra clase dibuja límites de decisión más elaborados. Lineal (VC = d+1 en d dimensiones) dibuja hiperplanos. Polinomios dibujan curvas. Redes neuronales dibujan variedades altamente plegadas. Más capacidad de plegamiento = más dicotomías = VC más alto = requisito de muestras más alto.

Contando Dicotomías

Considera clasificadores lineales en ℝ² (líneas). Tenemos 5 puntos colocados en posición general (no 3 colineales, ninguno redundante).

(a) Calcula 2⁵ = número de todos los etiquetados ±/± posibles. (b) El lema de Sauer-Shelah acota Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) donde d = VC(H). Aplica esto con d = 3, n = 5: calcula C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) Declara por qué factor las líneas se quedan cortas de una fragmentación completa.

Masa de Probabilidad en la Variedad de Hipótesis

Picturando PAC-Bayes

Imagina el espacio de hipótesis como una variedad de alta dimensión. Cada punto en esta variedad corresponde a una configuración de peso de una red neuronal. El prior P asigna una distribución de probabilidad en toda nuestra variedad (frecuentemente Gaussiana centrada en inicialización). El posterior Q concentra masa de probabilidad donde los datos de entrenamiento guiaron nuestros pesos.

PAC Bayes Posterior over Hypothesis Space

Divergencia KL como Distancia Geométrica

KL(Q‖P) mide cuánto se alejó Q de P. Lectura geométrica: cuánto se movió la nube posterior de la nube prior, ponderado por cuán improbable era cada región posterior bajo nuestro prior.

KL pequeño = Q se superpone con P fuertemente. El posterior apenas se movió. La brecha de generalización se mantiene pequeña.

KL grande = Q concentrado en regiones a las que P asignó poca masa. El posterior se movió mucho. La brecha de generalización crece.

Por qué Esta Geometría Importa

Imagina SGD como una trayectoria de búsqueda en nuestra variedad de hipótesis. La trayectoria termina en una cuenca de baja pérdida de entrenamiento. PAC-Bayes pregunta: ¿qué tan ancha es esta cuenca?

Cuenca ancha = muchas configuraciones de pesos vecinas también logran baja pérdida de entrenamiento. El posterior Q puede extenderse sobre una región amplia & aún tener riesgo bajo. KL(Q‖P) se mantiene acotado. Brecha de generalización pequeña.

Cuenca estrecha = solo un conjunto delgado de pesos logra baja pérdida. El posterior debe concentrarse bruscamente. KL crece. La brecha de generalización se amplía.

Esto se conecta directamente al discurso de mínimos planos-vs-afilados (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Los mínimos planos generalizan mejor porque soportan posteriores más amplios con KL más pequeño.

Leyendo un Ancho de Cuenca

Dos modelos entrenados alcanzan pérdida de entrenamiento idéntica pero viven en cuencas diferentes:

- Modelo A: cuenca plana, posterior se extiende sobre región con KL(Q_A‖P) = 50 nats.

- Modelo B: cuenca afilada, posterior se concentra con KL(Q_B‖P) = 500 nats.

Ambos entrenados en n = 10.000 ejemplos con riesgo empírico 0,05, δ = 0,05.

Calcula la brecha de generalización de PAC-Bayes √[(KL + ln(2√n/δ)) / 2n] para cada modelo. Luego declara cuál generaliza mejor & da la razón geométrica.

Una Curva Que Cae Donde la Teoría Predijo Ascender

Curva U Clásica

Grafica capacidad del modelo en eje horizontal. Grafica riesgo de prueba en eje vertical. La teoría clásica de sesgo-varianza predice:

- Capacidad baja: sesgo alto, riesgo de prueba alto (bajo ajuste)

- Capacidad media: sesgo bajo + varianza baja, riesgo de prueba bajo (punto óptimo)

- Capacidad alta: sesgo bajo, varianza alta, riesgo de prueba alto (sobreajuste)

Resultado: curva en forma de U. Elige capacidad en nuestro fondo.

Double Descent Curve

Lo Que Belkin et al (2019) Observaron

Pasado el umbral de interpolación (capacidad donde el modelo ajusta exactamente los datos de entrenamiento con error cero), el riesgo de prueba CAE de nuevo. La curva se lee: descenso → pico en interpolación → segundo descenso. Dos descensos, una curva.

Lectura Geométrica del Segundo Descenso

En el umbral de interpolación, el modelo tiene justo suficiente capacidad para ajustar los datos de entrenamiento — solo una (o pocas) soluciones interpolantes existen & tienden a ser dentadas. La generalización sufre porque la solución elegida se ve forzada.

Pasado el umbral de interpolación, MUCHAS soluciones interpolantes existen. SGD tiene libertad para elegir una suave (norma mínima, curvatura baja). Imagen geométrica: la variedad de soluciones se vuelve más ancha & más plana. El sesgo implícito de SGD elige soluciones benignas de esta variedad plana. El riesgo de prueba cae.

Por Qué la Teoría Clásica Se Pierde Esto

La dimensión VC cuenta la capacidad del conjunto solución pero ignora cuál solución se elige. El límite clásico asume minimizador de riesgo empírico de peor caso. Realidad: SGD elige confiablemente la solución interpolante más plana & más suave. Una vez que contamos soluciones ELEGIDAS POR SOLUCIONADOR en lugar de todas las soluciones, el segundo descenso tiene sentido.

Toma Geométrica de Casa

La capacidad importa menos que la geometría de la cuenca. Las cuencas anchas planas (post-interpolación) generalizan mejor que las estrechas afiladas (en interpolación). La teoría moderna intenta acotar la generalización por ancho de cuenca, no por conteo de parámetros.

Localizando los Dos Descensos

En una curva de descenso doble, tres regiones importan: (1) régimen sub-parametrizado, (2) pico de interpolación, (3) régimen sobre-parametrizado.

Describe geométricamente qué sucede con (a) el ancho de la variedad de soluciones, (b) la curvatura de la cuenca en el mínimo elegido, & (c) el rol de la regularización implícita en cada una de las tres regiones. Declara cuál región opera el entrenamiento moderno (ej. modelos tipo GPT) & por qué PAC clásico falla en predecir su éxito.

Superficie de Ley de Potencia en Espacio Parámetro-Token

Una Superficie 3D

Grafica parámetros N en un eje horizontal. Grafica tokens D en un segundo eje horizontal. Grafica pérdida L en vertical. La pérdida empírica talla una superficie de ley de potencia en todo este plano (N, D):

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

Compute Optimal Training Surface

La superficie desciende mientras N o D crecen. Las pendientes siguen leyes de potencia log-lineales (líneas rectas en gráfica log-log). La asíntota L∞ permanece positiva — pérdida irreducible que nuestro modelo no puede encoger más allá.

Cresta de Cómputo-Óptimo

Fija presupuesto total de cómputo C ∝ N × D (parámetros × tokens, aproximadamente). Corta nuestra superficie a lo largo de esta restricción. El corte traza una curva 2D a través de superficie 3D. El fondo de esta curva = punto de cómputo-óptimo.

Chinchilla (Hoffmann et al 2022) calculó este fondo analíticamente: D_opt ≈ 20 × N. La curva a lo largo del presupuesto de cómputo = una cresta. Caminar a lo largo de cresta: cómputo igual, pérdida decreciente. Caminar fuera de cresta (más parámetros que 20× tokens, o menos): cómputo desperdiciado.

Lectura Geométrica de GPT-3 vs Chinchilla

GPT-3: 175B parámetros, 300B tokens. Chinchilla-óptimo querría 175B × 20 = 3500B tokens. GPT-3 se sienta lejos de la cresta óptima de cómputo en su dirección pesada de parámetros. Chinchilla mismo: 70B parámetros entrenados en 1400B tokens. 1400 / 70 = 20 — exactamente en cresta. Chinchilla golpeó GPT-3 con menos de la mitad de su conteo de parámetros al sentarse en óptimo geométrico.

Muro de Datos como Plano Vertical

Web pública ~10¹³ tokens útiles. Esto traza como un muro vertical en D = 10¹³ en nuestro plano parámetro-token. Más allá de este muro, el entrenamiento óptimo de cómputo requiere N ≤ D / 20 = 5 × 10¹¹ parámetros. Los muros más allá de N = 5 × 10¹¹ o se ejecutan subestrenados (fuera de cresta) o requieren datos sintéticos / multimodales / RL para empujar el muro hacia afuera.

Caminando la Cresta Óptima de Cómputo

Nos sentamos en coordenadas GPT-3: N = 175B parámetros, D = 300B tokens. Proxy de cómputo C = N × D = 5,25 × 10²² tokens-parámetro.

(a) Calcula óptimo de Chinchilla (N*, D*) para nuestro mismo presupuesto de cómputo resolviendo D* = 20 × N* con N* × D* = 5,25 × 10²². (b) Declara por qué factor N* difiere de los 175B de GPT-3. (c) Describe geométricamente qué se ve como 'caminar desde el punto de GPT-3 hasta (N*, D*) a lo largo de la curva de cómputo constante' en la superficie parámetro-token.

Posterior Beta Estrechándose en una Aguja

Una Densidad de Probabilidad en [0, 1]

Beta(α, β) es una densidad de probabilidad sobre el intervalo unitario [0, 1]. Variable: ε = verdadera tasa de error. Forma: α controla masa en lado de ε alto; β controla masa en lado de ε bajo.

Beta Posterior Tightening

Beta(1, 1): uniforme — sin información, densidad plana en [0, 1].

Beta(α, β) con α + β grande: pico concentrado en α / (α + β).

El ancho del pico Beta encoge como 1/√(α+β). Añadir 100 observaciones a nuestro prior aprieta el pico por factor √100 = 10. Añadir 10000 observaciones aprieta por √10000 = 100.

Lectura Geométrica de una Ejecución de Audit

Inicio: Beta(1, 1) = rectángulo plano en [0, 1]. Incertidumbre máxima sobre ε.

Después de 200 consultas con 8 falsificaciones: Beta(9, 193). Media = 9/202 ≈ 0,045. Densidad ahora un bulto afilado centrado cerca de 0,045 con ancho característico σ ≈ 0,014.

Después de 2000 consultas con 80 falsificaciones: Beta(81, 1921). Media aún ≈ 0,045, pero ancho σ ≈ 0,0046. El bulto tres veces más afilado.

Después de 200.000 consultas con 8000 falsificaciones: Beta(8001, 192001). Media ≈ 0,040, ancho σ ≈ 0,0004. El bulto se vuelve una aguja.

Convergencia Geométrica a una Masa Puntual

Cuando n → ∞, el posterior Beta se colapsa a un delta de Dirac en ε verdadera. Geometría: rectángulo → bulto ancho → bulto estrecho → aguja → punto. Cada consulta aprieta nuestra distribución por 1/√n.

Por Qué Esto Vence a los Límites PAC Teóricos

Los límites PAC teóricos dan una estimación ε ESTÁTICA basada en tamaño de clase de hipótesis. El posterior Beta da una estimación ε DINÁMICA que se aprieta con cada observación, calibrada contra tu distribución del mundo real. Límite teórico = una garantía bajo suposiciones de peor caso. Audit empírico = una medición de realidad actual.

¿Cuántas Consultas para Reducir a la Mitad el Intervalo Creíble?

Actualmente nos sentamos en Beta(9, 193) después de 200 consultas: media ε ≈ 0,045, σ ≈ 0,014. Queremos reducir a la mitad el ancho del intervalo creíble a σ ≈ 0,007.

(a) Recuerda σ se escala como 1/√(α+β). Para reducir a la mitad σ, ¿por qué factor debe crecer (α + β)? (b) Actualmente α + β = 202. Calcula α + β objetivo. (c) Calcula consultas adicionales necesarias (asumiendo tasa ~4% de falsificación constante). (d) Describe geométricamente qué hace reducir a la mitad σ a la forma de la densidad Beta.