un — PAC-обучение: от теории к производственному аудиту [DESCRIPTION /]

un

гость

1 / ?

Probably Approximately Correct

Вопрос Валианта (1984)

Лесли Валиант задал обманчиво простой вопрос: что значит, что машина научилась? Не «может ли она запоминать?» и не «может ли она предсказывать идеально?». Вместо этого: может ли она учиться приблизительно хорошо, с высокой вероятностью, по конечной выборке и за полиномиальное время?

Эта постановка принесла ему премию Тьюринга в 2010 году и заложила основы вычислительной теории обучения.

PAC ε δ Budget Plane

Две ручки

ε (эпсилон) — допустимая ошибка. Примерно правильный означает, что ошибка ≤ ε. Меньшее ε = более строгое обучение.

δ (дельта) — параметр уверенности. Вероятно правильный означает, что вероятность успеха ≥ 1 − δ. Меньшее δ = требуется большая уверенность.

Определение

Класс концепций C считается PAC-обучаемым, если существует алгоритм, который для любого распределения данных D и любой целевой концепции c ∈ C, получив m примеров, сгенерированных из D и размеченных согласно c, возвращает гипотезу h, удовлетворяющую:

P[error(h) ≤ ε] ≥ 1 − δ

причём m полиномиально зависит от 1/ε, 1/δ и размера концепции.

В английском: подайте достаточно примеров — и модель будет достаточно часто достаточно близка, причём «достаточно» не растёт экспоненциально.

Примерная сложность для конечных пространств гипотез

Если пространство гипотез H содержит конечное число кандидатов, классический анализ даёт:

m ≥ (1/ε)(ln|H| + ln(1/δ))

Читайте эту формулу как бюджет. Уменьшение ε вдвое удваивает требуемое число примеров. Уменьшение δ вдвое добавляет константу. Увеличение |H| вдвое добавляет ln(2) примеров — логарифмический рост, очень мягкий.

Размер выборки для гипотезного класса

Спам-фильтр выбирает среди |H| = 1 000 000 кандидатных наборов правил. Требуется ошибка ε ≤ 0,05 с уверенностью 1 − δ = 0,99 (то есть δ = 0,01).

Примените конечную PAC-оценку сложности выборки m ≥ (1/ε)(ln|H| + ln(1/δ)) и вычислите достаточный размер выборки m. Покажите подстановку всех трёх значений (ε, |H|, δ) и приближённые значения ln до одного знака после запятой. Округлите m вверх до целого числа.

Разбиение и размерность Вапника–Червоненкиса

Когда пространства гипотез становятся бесконечными

Граница m ≥ (1/ε)(ln|H| + ln(1/δ)) перестаёт работать, когда |H| = ∞. Большинство полезных классов гипотез (линейные классификаторы в ℝᵈ, деревья решений, нейронные сети) содержат бесконечно много кандидатов. Вапник и Червоненкис решили эту проблему около 1971 года, введя более богатую меру сложности: VC-размерность.

VC Shattering Three Points

Разбиение (Shattering)

Класс гипотез H разбивает (shatters) набор из n точек, если H способен воспроизвести любую возможную разметку этих n точек (все 2ⁿ дихотомий). Линейные классификаторы в ℝ² разбивают любые 3 точки в общем положении: для каждой из 8 возможных разметок (+/−) этих трёх точек найдётся прямая, которая правильно их разделяет.

Но линейные классификаторы в ℝ² не могут shatter 4 точки, расположенные в конфигурации XOR. Ни одна прямая линия не разделяет диагональную пару от антидиагональной пары.

Размерность VC

VC(H) = наибольшее n, такое что H shatter’ит некоторое множество из n точек. Для линейных классификаторов в 2D: VC = 3. Для осесимметричных прямоугольников в 2D: VC = 4. Для нейронных сетей с W весами: VC ≤ O(W² log W) (Bartlett & Anthony 1999).

Оценка размера выборки через размерность VC

Заменим ln|H| в нашей PAC-оценке на размерность VC d:

m = O((d/ε) log(1/ε) + (1/ε) log(1/δ))

VC-размерность выступает как наша «эффективная сложность» бесконечного класса. Гипотезный класс с низкой VC-размерностью обобщается по небольшому числу примеров; класс с высокой VC-размерностью требует значительно больше данных.

VC-размерность как эффективное число гипотез

Нейросеть имеет W = 10⁹ весов. По границе Бартлетта-Энтони VC ≤ O(W² log W). Приближаем VC ≈ W² log₂ W.

Оцените VC для W = 10⁹. Затем подставьте в границу выборки VC m ≈ (d/ε), игнорируя логарифмические множители, при ε = 0.01. Сравните m с объёмом всего текста в открытом интернете (~10¹³ токенов). Укажите, предсказывает ли классическая PAC-теория, что наш гипотезный класс может быть PAC-обучен на данных масштаба интернета.

Отказ от реализуемости, апостериорные распределения над гипотезами

Две важные обобщения

Классический PAC предполагает, что целевая концепция c лежит внутри класса гипотез H. Реальные данные содержат шум, ошибки разметки и концепции, которые наш класс не может представить. Два расширения решают эту проблему.

PAC Bayes Posterior over Hypothesis Space

Agnostic PAC

Откажемся от предположения, что c ∈ H. Теперь будем соревноваться с нашей лучшей в классе гипотезой h* = argmin_{h ∈ H} risk(h). Форма границы меняется: вместо приближения к идеальному результату мы приближаемся к наилучшему возможному в рамках H.

Агностическая граница: P[risk(h) ≤ risk(h*) + ε] ≥ 1 − δ с выборочной сложностью m = O(1/ε² × (VC(H) + log(1/δ))). Обратите внимание на ε² вместо ε в знаменателе: агностическое обучение требует больше примеров для той же точности.

PAC-Байес (McAllester 1999)

Переходим от выбора одной гипотезы к выбору распределения над гипотезами. Начинаем с априорного распределения P. Наблюдаем данные. Получаем апостериорное распределение Q. PAC-Байес ограничивает ожидаемый риск относительно Q:

𝔼_{h~Q}[risk(h)] ≤ 𝔼_{h~Q}[empirical_risk(h)] + √[(KL(Q‖P) + ln(2√n/δ)) / 2n]

KL(Q‖P) измеряет, насколько наша апостериорная мера отклонилась от априорной. Две интерпретации:

1. С точки зрения сжатия. Апостериорная мера, близкая к априорной (малый KL), хорошо обобщается — небольшая информационная стоимость = небольшая разница между обобщением и эмпирическим риском.

2. С байесовской точки зрения. Сильный априор + слабое обновление по данным = жёсткая граница; слабый априор + сильное обновление по данным = более мягкая граница.

Почему PAC-Байес важен. Эмпирические PAC-Байес границы (Catoni 2007, Dziugaite & Roy 2017) дают численно значимые гарантии обобщения для реальных нейронных сетей, где классические PAC-границы оказываются пустыми. Они остаются нашим самым точным теоретическим инструментом для анализа обобщения в перепараметризованных моделях.

Чтение PAC-Bayes-границы

Предположим, мы обучили сеть на n = 50 000 размеченных примеров. После обучения наша апостериорная Q над весами имеет KL(Q‖P) = 200 нат относительно гауссовского априорного P. Эмпирический риск под Q равен 0,10. Установим δ = 0,05.

Вычислите PAC-Bayes-верхнюю границу на ожидаемый риск. Подставьте в √[(KL + ln(2√n/δ)) / 2n]. Округлите ln(2√n/δ) до целого числа. Укажите, является ли наша граница осмысленной (т. е. предсказывает ли истинный риск < 0,5).

Перепараметризация и двойной спуск

Классический PAC предсказывает катастрофу

Классический PAC предсказывает: больше параметров, чем примеров = катастрофическое переобучение. Идеальное запоминание обучающих данных и случайное обобщение на тестовых. VC-граница предсказывает запоминание без обучения.

Современные нейросети регулярно имеют в 10–1000 раз больше параметров, чем обучающих примеров, и всё равно обобщаются. По классической теории этого не должно происходить. Но это происходит.

Кривая двойного спуска

U-образная кривая, которой нас учили

Классическая кривая смещения-дисперсии: по мере роста ёмкости модели ошибка на обучении монотонно падает; ошибка на тесте сначала падает (меньше недообучения), достигает минимума, а затем растёт (переобучение). U-образная форма, предсказываемая теорией VC.

Что происходит на самом деле — двойной спуск

Belkin et al (2019) показали, что ошибка на тесте следует классической U-кривой вплоть до порога интерполяции (ёмкость = число примеров), а затем СНОВА ПАДАЕТ после этого порога. Сильно перепараметризованные модели обобщаются лучше, чем модели «точно достаточной» ёмкости.

Почему классическая PAC-теория этого не учитывает

1. Предположение об отсутствии распределения слишком пессимистично. Реальные данные имеют структуру (низкую внутреннюю размерность, геометрию многообразия). PAC-границы справедливы для наихудших распределений; реальные распределения используют структуру, которую также использует SGD.

2. Неявная регуляризация. SGD на перепараметризованных сетях находит интерполирующие решения с минимальной нормой или минимальной сложностью, а не произвольные. Классическая теория предполагает наихудший эмпирический минимизатор риска; реальные алгоритмы выбирают «доброкачественные».

3. Неверное определение класса гипотез. Эффективный класс гипотез, исследуемый SGD, намного меньше номинального пространства весов. PAC-Байесовские апостериорные распределения это учитывают; VC-размерность — нет.

Современные теоретические работы (Bartlett, Long, Lugosi, Tsigler 2020 по доброкачественному переобучению; Nakkiran et al 2020 по двойному спуску) создают пост-PAC теорию обобщения, учитывающую режим перепараметризации.

Диагностика неудачи классической PAC

Исследовательская группа обучает сеть с 1 миллиардом параметров на 100 000 размеченных примерах. Классическая PAC предсказывает пустые границы. Эмпирически точность на тесте достигает 95 %.

Назовите три конкретные причины, по которым классическая PAC не может предсказать этот успех. Для каждой причины укажите явление (структура распределения, неявная регуляризация, двойной спуск, концентрация апостериорного распределения) и кратко объясните, почему классическая PAC его упускает. 2–3 предложения на причину.

Kaplan, Chinchilla и Размер Автоматизированного Общего Интеллекта

От границ к эмпирическим законам масштабирования

Классический PAC теоретически предсказывает размер набора данных и даёт бесполезные результаты. Эмпирические законы масштабирования предсказывают размер набора данных из наблюдений и реально работают. Они заменили PAC в качестве практического инструмента определения размера больших моделей.

Compute Optimal Training Surface

Kaplan et al (2020)

Потери подчиняются степенному закону по параметрам N, токенам датасета D и вычислениям C:

L(N) ≈ (Nc/N)^αN L(D) ≈ (Dc/D)^αD L(C) ≈ (Cc/C)^αC

Удвоение числа параметров снижает потери на фиксированный мультипликативный коэффициент. Удвоение данных снижает потери на другой фиксированный коэффициент. Эти показатели (αN, αD, αC) измеряют и предсказывают поведение frontier-моделей на многих порядках величины.

Hoffmann et al 2022 (Chinchilla)

Chinchilla показала, что экспоненты Каплана переоценивали важность параметров по сравнению с данными. Оптимальное по вычислениям обучение требует примерно 20 токенов на параметр:

D_opt ≈ 20 × N

GPT-3 (175 млрд параметров) обучалась на ~300 млрд токенов — сильно недообучена по расчётам Chinchilla. Оптимальная по вычислениям модель на 175 млрд параметров требует ~3,5 триллиона токенов.

The Data Wall

Масштабирование количества параметров требует пропорционального увеличения количества токенов. Публичный веб-краулинг даёт ~10¹³ полезных токенов. Гипотетический автоматизированный общий интеллект с 10¹⁵ параметрами потребовал бы ~2×10¹⁶ токенов — на три порядка больше доступных веб-данных.

Это наша стена данных. Законы масштабирования предсказывают, что мы столкнёмся с нехваткой корпуса задолго до нехватки вычислительных ресурсов. Синтетические данные, мультимодальные корпуса (видео, аудио, сенсорные потоки) и RL-from-environment направлены на преодоление этого барьера.

Классическая PAC говорила нам (ошибочно), что нужно 10²¹ примеров. Законы масштабирования говорят (с учётом реальности), что нужно 2×10¹⁶. Оба числа превышают доступный текст. Современные исследования на переднем крае направлены на закрытие этого разрыва.

Оценка корпуса для автоматизированного общего интеллекта

Предположим, что передовая лаборатория предлагает модель с 10¹⁴ параметрами и утверждает, что она достигнет автоматизированного общего интеллекта. Мы хотим определить размер её обучающего корпуса по правилу Chinchilla.

Примените D_opt ≈ 20 × N, чтобы оценить оптимальное по вычислениям количество токенов для N = 10¹⁴ параметров. Сравните с публичным вебом (~10¹³ токенов). Укажите, во сколько раз мы не дотягиваем, и назовите две стратегии, которые используют передовые лаборатории для закрытия этого разрыва.

От теоретических границ к производственным измерениям

Перестать вычислять границы; начать их измерять

Классические PAC-границы оказываются пустыми. PAC-Bayes-границы оказываются плотными при предположениях, которые трудно проверить. Практическая альтернатива: измерять ε эмпирически на реальном распределении и обновлять его по мере работы системы.

Beta Posterior Tightening

Идея 1 — Сделать покрытие эмпирическим PAC

Цель make coverage пропускает N отложенных вопросов через вашу систему запросов и измеряет две метрики:

- cache_hit_rate — доля запросов, для которых система нашла известный ответ

- i_dont_know_rate — доля запросов, на которые система честно ответила отказом

Каждое измерение = испытание Бернулли. По наблюдаемым частотам вычисляем интервал Уилсона для истинной доли. Пример: N = 1000 запросов, наблюдаемая i_dont_know_rate = 0.20 → 95% ДИ ≈ [0.177, 0.226]. Верхняя граница 0.226 работает точно так же, как PAC-ε при δ = 0.05, но получена из реальных данных на реальном распределении, а не из теоретического анализа в худшем случае.

Классическая PAC-терминология применима (ε, δ, доверие). Используется другой математический аппарат (концентрация биномиального распределения вместо VC-теории). Результат более точный, поскольку реальные распределения обладают структурой, которую можно использовать.

Идея 2 — PAC-Байес аудит через события фальсификации

Каждое событие фальсификации (когда ответ системы заведомо неверен) рассматривается как свидетельство, обновляющее апостериорное распределение истинной доли ошибок ε:

1. Априорное распределение: ε ~ Beta(α₀, β₀). Выбираем слабый априор, например Beta(1, 1) = равномерное.

2. Каждый запрос даёт исход по схеме Бернулли: фальсифицирован (1) или не фальсифицирован (0).

3. Апостериорное распределение после k фальсификаций в n запросах: Beta(α₀ + k, β₀ + n − k).

4. Апостериорное среднее: (α₀ + k) / (α₀ + β₀ + n) → эмпирическая частота фальсификаций при n → ∞.

5. 95%-ный credible interval для ε сужается как 1/√n.

Что это даёт

- Оценка реального ε₀ из фактического развёртывания, а не из теории наихудшего случая

- Anytime-valid тревога: когда апостериорный credible interval пересекает порог контракта, уведомить дежурного

- Монотонная уверенность: чем больше запросов проанализировано → уже CI → сильнее гарантия

Родственные методы: conformal prediction с онлайн-перекалибровкой (Vovk), последовательные вероятностные отношения (Wald), онлайн PAC-Bayes (Haddouche & Guedj 2022). Одна семья, разные математические инструменты.

Вычисление апостериорного Beta-распределения по фальсификациям

Наша команда проводит аудит покрытия на продакшн-системе запросов. Априорное распределение истинной доли ошибок ε: Beta(1, 1) (равномерное). После 200 отложенных запросов мы зафиксировали 8 фальсификаций.

Вычислите (a) параметры апостериорного Beta(α, β) после наблюдения этих данных; (b) апостериорное среднее ε; (c) приближённую верхнюю границу 95% credible interval по формуле μ + 2σ, где σ = √(αβ/((α+β)²(α+β+1))). Затем укажите, стоит ли отправлять систему в продакшн, если контракт требует ε ≤ 0.10.