un — Geometria uczenia PAC

un

gość

1 / ?

powrót do lekcji

PAC jako płaszczyzna dwuosiowa

Dwie osie, jedna powierzchnia liczby próbek

Wykreśl ε na osi poziomej (tolerancja błędu, zakres od 0 do 1). Wykreśl δ na osi pionowej (prawdopodobieństwo niepowodzenia, zakres od 0 do 1). Każdy punkt w tym kwadracie jednostkowym odpowiada parze żądań (ε, δ).

PAC ε δ Budget Plane

Powyżej każdego punktu znajduje się wartość liczby próbek m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Razem te wartości m rysują zakrzywioną powierzchnię powyżej naszego kwadratu. Bardziej rygorystyczne wymogi (mniejsze ε, mniejsze δ) pociągają naszą powierzchnię w górę; łagodniejsze wymogi ją spłaszczają.

Linie konturu iso-próbki

Rzutuj naszą powierzchnię z powrotem na naszą płaszczyznę jako kontury iso-m. Każda para (ε, δ) na pojedynczym konturze wymaga tego samego budżetu próbek. Poruszaj się wzdłuż konturu, aby wymieniać tolerancję błędu na pewność przy stałym koszcie.

Zmniejszanie osi o połowę

Zmniejszenie ε o połowę wzdłuż naszej poziomej przesuwa m w górę o współczynnik 2 (liniowo w 1/ε). Zmniejszenie δ o połowę wzdłuż naszej pionowej przesuwa m w górę o ln(2) ≈ 0,69 (logarytmicznie w 1/δ). Geometria mówi nam: tolerancja błędu wymaga stromszego kosztu niż pewność.

Odczytywanie powierzchni budżetu

Siedzimy w punkcie (ε = 0,05, δ = 0,05) dla klasy hipotez |H| = 10⁶. Wymóg próbek m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.

(a) Oblicz nowy wymóg próbek m₁ w punkcie (ε = 0,025, δ = 0,05) — połowa błędu, ta sama pewność. (b) Oblicz m₂ w punkcie (ε = 0,05, δ = 0,025) — ten sam błąd, połowa prawdopodobieństwa niepowodzenia. (c) Która oś wymaga stromszego kosztu próbek & w jakim stosunku?

Dichotomie na chmurach punktów

Jak wygląda rozbijanie

Umieść n punktów na naszej płaszczyźnie. Wybierz klasę hipotez (klasyfikatory liniowe = linie proste). Policz na ile różnych sposobów nasza klasa może etykietować te n punktów (+/− po każdej stronie linii). Nazwij tę liczbę Π_H(n).

VC Shattering Three Points

Jeśli Π_H(n) = 2ⁿ, nasza klasa rozbiwa ten zbiór punktów — może wytworzyć każde możliwe etykietowanie. Jeśli Π_H(n) < 2ⁿ, niektóre etykietowania nie mogą się pojawić.

Trzy punkty w pozycji ogólnej

Klasyfikatory liniowe w ℝ² rozbijają dowolne 3 punkty nie leżące na jednej linii. 2³ = 8 etykietowań; wszystkie 8 osiągalne przez jakąś linię. Wybierz dowolne 3 punkty; dla każdego ±/± etykietowania narysuj linię, która separuje pozytywne od negatywnych.

Cztery punkty odmawiają rozbijania

Umieść 4 punkty w narożnikach kwadratu. Spróbuj etykietować parę diagonalną jako pozytywną & drugą diagonalną parę jako negatywną (etykietowanie XOR). Żadna linia prosta ich nie separuje. Więc Π_H(4) ≤ 14 < 16 = 2⁴.

Wymiar VC jako maksymalny rozmiar rozbijania

VC(liniowe ℝ²) = 3. Możemy rozbić 3 punkty; nie możemy rozbić 4. VC zlicza maksymalną zdolność dichotomii naszej klasy hipotez.

Intuicja geometryczna

Wyższe VC = nasza klasa rysuje bardziej zaawansowane granice decyzji. Liniowe (VC = d+1 w d wymiarach) rysuje hiperpłaszczyzny. Wielomiany rysują krzywe. Sieci neuronowe rysują wysoce złożone rozmaitości. Większa foldowalność = więcej dichotomii = wyższe VC = wyższy wymóg próbek.

Liczenie dichotomii

Rozważ klasyfikatory liniowe w ℝ² (linie). Mamy 5 punktów umieszczonych w pozycji ogólnej (żadne 3 nie leżą na jednej linii, brak nadmiarowych).

(a) Oblicz 2⁵ = liczbę wszystkich możliwych ±/± etykietowań. (b) Lemat Sauera-Shełacha ogranicza Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) gdzie d = VC(H). Zastosuj to z d = 3, n = 5: oblicz C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) Ustal o ile czynnik linie spadają poniżej pełnego rozbijania.

Masa probabilistyczna na rozmaitości hipotez

Obrazowanie PAC-Bayesa

Wyobraź sobie przestrzeń hipotez jako wysokowymiarową rozmaitość. Każdy punkt na tej rozmaitości odpowiada jednej konfiguracji wag sieci neuronowej. Prior P przypisuje rozkład probabilistyczny na naszej rozmaitości (często Gaussowski wyśrodkowany na inicjalizacji). Posterior Q koncentruje masę probabilistyczną tam, gdzie dane treningowe skierowały nasze wagi.

PAC Bayes Posterior over Hypothesis Space

Dywergencja KL jako odległość geometryczna

KL(Q‖P) mierzy jak daleko Q przesunęło się od P. Odczyt geometryczny: jak bardzo chmura posteriori przesunęła się od chmury prior, ważone przez to jak mało prawdopodobna była każda obszar posteriori pod priorem.

Małe KL = Q silnie pokrywa P. Posterior prawie się nie przesunął. Luka generalizacji pozostaje mała.

Duże KL = Q skoncentrowane w regionach którym P przypisał małą masę. Posterior przesunął się wiele. Luka generalizacji rośnie.

Dlaczego ta geometria ma znaczenie

Wyobraź sobie SGD jako trajektorię poszukiwań na naszej rozmaitości hipotez. Trajektoria kończy się w basenie niskiej straty treningowej. PAC-Bayes pyta: jak szeroki jest ten basen?

Szeroki basen = wiele sąsiednich konfiguracji wag osiąga również niską stratę treningową. Posterior Q może rozłożyć się na szerokim regionie & nadal mieć niskie ryzyko. KL(Q‖P) pozostaje ograniczone. Luka generalizacji mała.

Wąski basen = tylko cienki zbiór wag osiąga niską stratę. Posterior musi się skoncentrować ostro. KL rośnie. Luka generalizacji się powiększa.

To łączy się bezpośrednio z dyskursem płaskich-vs-ostrych minimów (Hochreiter & Schmidhuber 1997, Keskar i in. 2017). Płaskie minima lepiej generalizują ponieważ wspierają szersze posteriory z mniejszym KL.

Odczytywanie szerokości basenu

Dwa wytrenowane modele osiągają identyczną stratę treningową ale żyją w różnych basenach:

- Model A: płaski basen, posterior rozprzestrzenia się na regionem z KL(Q_A‖P) = 50 nats.

- Model B: ostry basen, posterior koncentruje się z KL(Q_B‖P) = 500 nats.

Oba wytrenowane na n = 10 000 przykładów z empirycznym ryzykiem 0,05, δ = 0,05.

Oblicz lukę generalizacji PAC-Bayesa √[(KL + ln(2√n/δ)) / 2n] dla każdego modelu. Następnie ustal który lepiej generalizuje & podaj geometryczną przyczynę.

Krzywa która spada tam gdzie teoria przewidywała wzrost

Klasyczna krzywa U

Wykreśl pojemność modelu na osi poziomej. Wykreśl ryzyko testowe na osi pionowej. Klasyczna teoria bias-variance przewiduje:

- Niska pojemność: wysokie obciążenie, wysokie ryzyko testowe (niedouczenie)

- Średnia pojemność: niskie obciążenie + niska wariancja, niskie ryzyko testowe (słodki punkt)

- Wysoka pojemność: niskie obciążenie, wysoka wariancja, wysokie ryzyko testowe (przeuczenie)

Wynik: krzywa w kształcie U. Wybierz pojemność na dnie.

Double Descent Curve

Co obserwowali Belkin i in. (2019)

Poza progiem interpolacji (pojemność gdzie model dokładnie dopasowuje dane treningowe z błędem zerowym), ryzyko testowe SPADA ponownie. Krzywa czyta: zjazd → szczyt na interpolacji → drugi zjazd. Dwa zjazdy, jedna krzywa.

Geometryczne odczytanie drugiego zjazdu

Na progu interpolacji, model ma dokładnie wystarczającą pojemność aby dopasować dane treningowe — istnieje tylko jedno (lub kilka) rozwiązań interpolujących & mają one tendencję do bycia poszarpane. Generalizacja cierpi ponieważ wybrane rozwiązanie jest zmuszone.

Poza progiem interpolacji, WIELE rozwiązań interpolujących istnieje. SGD ma wolność aby wybrać gładkie (minimum-norm, niska-krzywizna). Obraz geometryczny: rozmaitość rozwiązań staje się szersza & bardziej płaska. Niejawna regularyzacja SGD wybiera łagodne rozwiązania z tej płaskiej rozmaitości. Ryzyko testowe spada.

Dlaczego klasyczna teoria to pomijaTo

Wymiar VC zlicza pojemność zboru rozwiązań ale ignoruje które rozwiązanie zostaje wybrane. Klasyczna granica zakłada worst-case empirical risk minimizer. Rzeczywistość: SGD niezawodnie wybiera NAJPŁASZE, NAJGŁADSZE rozwiązanie interpolujące. Raz gdy liczymy ROZWIĄZANIA WYBRANE PRZEZ SOLVER zamiast wszystkich rozwiązań, drugi zjazd ma sens.

Geometryczne wytłumaczenie podsumowania

Pojemność ma mniejsze znaczenie niż geometria basenu. Szerokie płaskie baseny (post-interpolacja) generalizują lepiej niż wąskie ostre (na interpolacji). Nowoczesna teoria stara się ograniczyć generalizację szerokością basenu, nie liczbą parametrów.

Lokalizowanie dwóch zjaz

Na krzywej podwójnego zjazdu, trzy regiony są ważne: (1) regime niewystarczająco sparametryzowany, (2) szczyt interpolacji, (3) regime nadparametryzowany.

Opisz geometrycznie co się dzieje z (a) szerokością rozmaitości rozwiązań, (b) krzywizną basenu na wybranym minimum, & (c) rolą niejawnej regularyzacji w każdym z trzech regionów. Ustal który region nowoczesny trening (np. modele klasy GPT) operuje & dlaczego klasyczne PAC nie może przewidzieć jego sukcesu.

Powierzchnia potęgowa w przestrzeni parametr-token

Powierzchnia 3D

Wykreśl parametry N na jednej osi poziomej. Wykreśl tokeny D na drugiej osi poziomej. Wykreśl stratę L na pionowej. Empiryczna strata karze powierzchnię potęgową na tej (N, D) płaszczyźnie:

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

Compute Optimal Training Surface

Powierzchnia nachyla się w dół gdy rośnie N lub D. Nachylenia podążają za liniami log-log (proste linie na wykresie log-log). Asymptota L∞ pozostaje pozytywna — nieodwracalna strata którą nasz model nie może zmniejszyć poniżej.

Grzebień compute-optimal

Napraw całkowity budżet obliczeń C ∝ N × D (parametry × tokeny, mniej więcej). Narysuj naszą powierzchnię wzdłuż tego ograniczenia. Narysowanie przecina 2D krzywą przez 3D powierzchnię. Dno tej krzywej = punkt compute-optimal.

Chinchilla (Hoffmann i in. 2022) obliczył to dno analitycznie: D_opt ≈ 20 × N. Krzywa wzdłuż budżetu obliczeń = grzebień. Chodzenie wzdłuż grzebienia: równe obliczenia, malejąca strata. Chodzenie poza grzebień (więcej parametrów niż 20× tokenów, lub mniej): marnowane obliczenia.

Geometryczne odczytanie GPT-3 vs Chinchilla

GPT-3: 175B parametrów, 300B tokenów. Chinchilla-optimal chciałaby 175B × 20 = 3500B tokenów. GPT-3 siedzi daleko od grzebienia compute-optimal w naszym kierunku bogatym parametrami. Chinchilla sam: 70B parametrów wytrenowanych na 1400B tokenów. 1400 / 70 = 20 — dokładnie na grzebeniu. Chinchilla pokonała GPT-3 z mniej niż połową jej liczby parametrów poprzez siedzianie na geometrycznym optimum.

Mur danych jako płaszczyzna pionowa

Publiczna sieć ~10¹³ użytecznych tokenów. To wykreśla się jako ściana pionowa na D = 10¹³ na naszej płaszczyźnie parametr-token. Poza tą ścianą, trening compute-optimal wymaga N ≤ D / 20 = 5 × 10¹¹ parametrów. Ściany poza N = 5 × 10¹¹ albo biegną niedotrenowane (poza grzebień) albo wymagają syntetycznych / multimodalnych / RL danych aby popchnąć ścianę na zewnątrz.

Chodzenie wzdłuż grzebienia compute-optimal

Siedzimy na współrzędnych GPT-3: N = 175B parametrów, D = 300B tokenów. Pełnomocnik obliczeń C = N × D = 5,25 × 10²² parametr-tokeny.

(a) Oblicz Chinchilla-optimal (N*, D*) dla naszego tego samego budżetu obliczeń poprzez rozwiązanie D* = 20 × N* z N* × D* = 5,25 × 10²². (b) Ustal o jaki czynnik N* różni się od GPT-3's 175B. (c) Opisz geometrycznie co oznacza 'chodzenie z punktu GPT-3 do (N*, D*) wzdłuż stałej krzywej obliczeń' na powierzchni parametr-token.

Posteriori Beta ściskające się w igłę

Gęstość probabilistyczna na [0, 1]

Beta(α, β) jest gęstością probabilistyczną na interwale jednostkowym [0, 1]. Zmienna: ε = rzeczywista stopa błędu. Kształt: α kontroluje masę na stronie wysokiej ε; β kontroluje masę na stronie niskiej ε.

Beta Posterior Tightening

Beta(1, 1): równomierny — brak informacji, płaska gęstość na [0, 1].

Beta(α, β) z α + β duże: skoncentrowany szczyt na α / (α + β).

Szerokość szczytu Beta kurczy się jako 1/√(α+β). Dodanie 100 obserwacji do naszego prior zaciąga szczyt o współczynnik √100 = 10. Dodanie 10000 obserwacji zaciąga o √10000 = 100.

Geometryczne odczytanie przebiegu audyty

Zacznij: Beta(1, 1) = płaski prostokąt na [0, 1]. Maksymalna niepewność o ε.

Po 200 zapytaniach z 8 fałszywymi: Beta(9, 193). Średnia = 9/202 ≈ 0,045. Gęstość teraz ostry garb wyśrodkowany blisko 0,045 z charakterystyczną szerokością σ ≈ 0,014.

Po 2000 zapytaniach z 80 fałszywymi: Beta(81, 1921). Średnia nadal ≈ 0,045, ale szerokość σ ≈ 0,0046. Garb trzy razy ostrzejszy.

Po 200 000 zapytaniach z 8000 fałszywymi: Beta(8001, 192,001). Średnia ≈ 0,040, szerokość σ ≈ 0,0004. Garb staje się igłą.

Geometryczna konwergencja do masy punktowej

Gdy n → ∞, posterior Beta zwija się do Diraca delta na prawdziwej ε. Geometria: prostokąt → szeroki garb → wąski garb → igła → punkt. Każde zapytanie zaciąga naszą dystrybucję o 1/√n.

Dlaczego to bije teoretyczne granice PAC

Teoretyczne granice PAC dają STATYCZNĄ estymację ε opartą na rozmiarze klasy hipotez. Posterior Beta daje DYNAMICZNĄ estymację ε która zaciąga się z każdą obserwacją, kalibrowaną przeciwko twojej rzeczywistej dystrybucji. Teoretyczna granica = gwarancja w worst-case założeniach. Empiryczna audyta = pomiar rzeczywistości.

Ile zapytań aby zmniejszyć o połowę interwał wiarygodności?

Siedzimy teraz na Beta(9, 193) po 200 zapytaniach: średnia ε ≈ 0,045, σ ≈ 0,014. Chcemy zmniejszyć o połowę szerokość interwału wiarygodności do σ ≈ 0,007.

(a) Przywołaj że σ skaluje się jako 1/√(α+β). Aby zmniejszyć σ o połowę, o jaki czynnik musi wzrosnąć (α + β)? (b) Obecnie α + β = 202. Oblicz docelowe α + β. (c) Oblicz dodatkowe zapytania potrzebne (zakładając stałą ~4% stopę fałszywych). (d) Geometrycznie opisz co zmniejszenie σ o połowę robi do kształtu gęstości Beta.