un — PAC 학습의 기하학

un

게스트

1 / ?

수업 목록으로

두 축, 하나의 표본-개수 곡면

수평축에 ε를 표시하고(오차 허용 범위, 0에서 1 사이), 수직축에 δ를 표시합니다(실패 확률, 0에서 1 사이). 이 단위 정사각형의 각 점은 하나의 (ε, δ) 수요 쌍에 해당합니다.

PAC ε δ 예산 평면

각 점 위에는 표본-개수 값 m(ε, δ) = (1/ε)(ln|H| + ln(1/δ))가 있습니다. 이 m 값들이 함께 정사각형 위의 곡면을 추적합니다. 더 엄격한 요구(더 작은 ε, 더 작은 δ)는 우리 곡면을 위쪽으로 당기고; 더 느슨한 요구는 이를 평평하게 만듭니다.

등표본-개수 윤곽선

우리 곡면을 평면으로 다시 투영하여 등-m 윤곽선으로 표시합니다. 단일 윤곽선 위의 모든 (ε, δ) 쌍은 동일한 표본 예산이 필요합니다. 윤곽선을 따라 이동하여 오차 허용 범위를 신뢰도로 교환하되 고정된 비용입니다.

축 반감

수평축을 따라 ε를 반으로 나누면 m이 2배 증가합니다(1/ε에서 선형). 수직축을 따라 δ를 반으로 나누면 m이 ln(2) ≈ 0.69만큼 증가합니다(1/δ에서 로그). 기하학은 우리에게 말합니다: 오차 허용 범위가 신뢰도보다 더 가파른 비용을 가집니다.

예산 곡면 읽기

우리는 가설 클래스 |H| = 10⁶에 대해 점 (ε = 0.05, δ = 0.05)에 있습니다. 표본 요구 사항 m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336입니다.

(a) 점 (ε = 0.025, δ = 0.05)에서 새로운 표본 요구 사항 m₁을 계산하세요 — 절반 오차, 동일한 신뢰도. (b) (ε = 0.05, δ = 0.025)에서 m₂를 계산하세요 — 동일한 오차, 절반 실패 확률. (c) 어느 축이 더 가파른 표본 비용을 가지며, 비율은 어떻게 됩니까?

점 구름 위의 이분법

분쇄는 어떤 모양입니까

우리 평면에 n개의 점을 배치합니다. 가설 클래스를 선택합니다(선형 분류자 = 직선). 우리 클래스가 그 n개의 점을 라벨할 수 있는 서로 다른 방법의 개수를 세세요(직선의 각 측면에 +/−). 이 개수를 Π_H(n)이라고 부릅니다.

VC 분쇄 세 점

Π_H(n) = 2ⁿ이면, 우리 클래스는 그 점 집합을 분쇄합니다 — 가능한 모든 라벨 지정을 생성할 수 있습니다. Π_H(n) < 2ⁿ이면, 일부 라벨 지정이 발생할 수 없습니다.

일반적인 위치에 있는 세 점

ℝ²의 선형 분류자는 비-공선 3개 점을 분쇄합니다. 2³ = 8개 라벨 지정; 모든 8개가 어떤 직선으로 달성 가능합니다. 어떤 3개 점이든 선택하세요; 각 ±/± 라벨 지정에 대해 양수와 음수를 분리하는 직선을 그리세요.

네 점은 분쇄를 거부합니다

정사각형의 모서리에 4개의 점을 배치합니다. 대각선 쌍을 양수로, 반대각선 쌍을 음수로 라벨 지정하세요(XOR 라벨 지정). 직선이 이를 분리할 수 없습니다. 따라서 Π_H(4) ≤ 14 < 16 = 2⁴입니다.

VC 차원을 최대 분쇄 크기로

VC(선형 ℝ²) = 3입니다. 우리는 3개의 점을 분쇄할 수 있고; 4개는 분쇄할 수 없습니다. VC는 우리 가설 클래스의 최대 이분법 용량을 세계합니다.

기하학적 직관

높은 VC = 우리 클래스가 더 복잡한 결정 경계를 그립니다. 선형(d 차원에서 VC = d+1)은 초평면을 그립니다. 다항식은 곡선을 그립니다. 신경망은 매우 접힌 다양체를 그립니다. 더 많은 접힘 = 더 많은 이분법 = 더 높은 VC = 더 높은 표본 요구 사항.

이분법 세기

ℝ²의 선형 분류자(직선)를 고려합니다. 우리는 일반적인 위치에 5개의 점을 배치했습니다(비-공선 3개, 중복 없음).

(a) 2⁵ = 모든 가능한 ±/± 라벨 지정의 개수를 계산하세요. (b) Sauer-Shelah 보조정리는 Π_H(n) ≤ Σ_{i=0}^{d} C(n, i)를 제한합니다. 여기서 d = VC(H)입니다. 이를 d = 3, n = 5로 적용하세요: C(5,0) + C(5,1) + C(5,2) + C(5,3)을 계산하세요. (c) 직선이 완전한 분쇄에서 얼마나 떨어져 있는지 계산하세요.

가설 다양체 위의 확률 질량

PAC-Bayes 시각화

우리 가설 공간을 고차원 다양체로 생각해보세요. 이 다양체의 각 점은 신경망의 한 가중치 구성에 해당합니다. 사전 P는 우리 다양체를 통해 확률 분포를 할당합니다(종종 초기화 중심의 가우스). 사후 확률 Q는 훈련 데이터가 우리 가중치를 몬 위치에서 확률 질량을 집중시킵니다.

PAC Bayes 가설 공간 위의 사후 확률

KL 발산을 기하학적 거리로

KL(Q‖P)는 Q가 P에서 얼마나 멀리 떠났는지를 측정합니다. 기하학적 읽음: 사후 클라우드가 사전 클라우드에서 얼마나 이동했는지, 각 사후 영역이 사전에서 얼마나 가능성이 없었는지에 의해 가중됩니다.

작은 KL = Q가 P와 크게 겹칩니다. 사후는 거의 이동하지 않았습니다. 일반화 간격이 작게 유지됩니다.

큰 KL = Q가 P가 작은 질량을 할당한 영역에 집중됩니다. 사후가 많이 이동했습니다. 일반화 간격이 증가합니다.

이 기하학이 왜 중요한가

SGD를 우리 가설 다양체를 통한 검색 궤적으로 상상해보세요. 궤적은 낮은 훈련 손실의 분지에서 끝납니다. PAC-Bayes가 묻습니다: 이 분지는 얼마나 넓습니까?

넓은 분지 = 많은 인접한 가중치 구성도 낮은 훈련 손실을 달성합니다. 사후 Q는 넓은 영역에 펼쳐지고도 여전히 낮은 위험도를 가질 수 있습니다. KL(Q‖P)이 제한된 상태로 유지됩니다. 일반화 간격이 작습니다.

좁은 분지 = 겨우 얇은 가중치 집합만이 낮은 손실을 달성합니다. 사후는 예리하게 집중해야 합니다. KL이 증가합니다. 일반화 간격이 넓어집니다.

이것은 평탄 vs 예리한 최솟값 담론(Hochreiter & Schmidhuber 1997, Keskar et al 2017)과 직접 연결됩니다. 평탄한 최솟값은 더 작은 KL을 가진 더 넓은 사후를 지원할 수 있기 때문에 더 잘 일반화합니다.

분지 너비 읽기

두 훈련 모델이 동일한 훈련 손실에 도달하지만 다른 분지에 위치합니다:

- 모델 A: 평탄 분지, 사후가 KL(Q_A‖P) = 50 nats인 영역에 펼쳐집니다.

- 모델 B: 예리한 분지, 사후가 KL(Q_B‖P) = 500 nats로 집중됩니다.

둘 다 n = 10,000개 예시에서 경험적 위험 0.05, δ = 0.05로 훈련되었습니다.

각 모델에 대해 PAC-Bayes 일반화 간격 √[(KL + ln(2√n/δ)) / 2n]을 계산하세요. 그런 다음 어느 것이 더 잘 일반화되는지 명시하고 기하학적 이유를 제시하세요.

이론이 상승을 예측한 곡선이 하강하는 곳

고전적 U-곡선

수평축에 모델 용량을, 수직축에 테스트 위험을 표시합니다. 고전적 편향-분산 이론은 다음을 예측합니다:

- 낮은 용량: 높은 편향, 높은 테스트 위험(과소적합)

- 중간 용량: 낮은 편향 + 낮은 분산, 낮은 테스트 위험(달콤한 자리)

- 높은 용량: 낮은 편향, 높은 분산, 높은 테스트 위험(과적합)

결과: U 모양 곡선. 우리 최저점에서 용량을 선택하세요.

이중 하강 곡선

Belkin et al (2019)가 관찰한 것

내삽 임계값(모델이 정확히 훈련 데이터에 맞아 0 오차 포함)을 지나가면, 테스트 위험이 다시 하강합니다. 곡선은 읽습니다: 하강 → 내삽에서 정점 → 두 번째 하강. 두 개의 하강, 한 곡선.

두 번째 하강의 기하학적 읽음

내삽 임계값에서, 모델은 훈련 데이터에 정확하게 맞을 충분한 용량만 가지고 있습니다 — 겨우 하나(또는 적은) 내삽 솔루션만 존재하며 그들은 들쭉날쭉할 수 있습니다. 일반화가 고통받습니다. 왜냐하면 선택된 솔루션이 강제되기 때문입니다.

내삽 임계값을 지난 후, 많은 내삽 솔루션이 존재합니다. SGD는 매끄러운 솔루션을 선택할 자유가 있습니다(최소-노름, 낮은-곡률). 기하학적 그림: 솔루션 다양체가 더 넓고 평평해집니다. SGD의 암묵적 정규화는 이 평탄한 다양체에서 건양한 솔루션을 선택합니다. 테스트 위험이 하강합니다.

고전적 이론이 이를 놓치는 이유

VC 차원은 솔루션-집합 용량을 세지만 어느 솔루션이 선택되는지는 무시합니다. 고전적 경계는 최악의 경우 경험적 위험 최소화를 가정합니다. 현실: SGD는 안정적으로 가장 평탄하고, 가장 매끄러운 내삽 솔루션을 선택합니다. 모든 솔루션 대신 솔버-선택된 솔루션을 세면, 두 번째 하강이 의미 있습니다.

기하학적 수용 - 집계

용량이 분지 기하학보다 덜 중요합니다. 넓은 평탄한 분지(내삽 후)는 좁고 예리한 것(내삽에서)보다 더 잘 일반화합니다. 현대 이론은 매개변수 개수가 아니라 분지 너비로 일반화를 제한하려고 시도합니다.

두 하강 위치 지정

이중 하강 곡선에서, 세 영역이 중요합니다: (1) 과소-매개변수화 영역, (2) 내삽 정점, (3) 과-매개변수화 영역.

세 영역의 각각에서 기하학적으로 (a) 솔루션 다양체의 너비, (b) 선택된 최솟값에서의 분지 곡률, & (c) 암묵적 정규화의 역할이 어떻게 되는지 설명하세요. 현대 훈련(예: GPT-클래스 모델)이 작동하는 세 영역 중 어느 것인지를 명시하고 고전적 PAC가 그 성공을 예측하지 못하는 이유를 설명하세요.

매개변수-토큰 공간의 멱법칙 곡면

3D 곡면

한 수평축에 매개변수 N을, 두 번째 수평축에 토큰 D를, 수직축에 손실 L을 표시합니다. 경험적 손실은 이 (N, D) 평면에서 멱법칙 곡면을 새깁니다:

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

계산 최적 훈련 곡면

곡면은 N이나 D가 증가하면서 아래로 경사집니다. 경사는 로그-선형 멱법칙을 따릅니다(로그-로그 그림에서 직선). 점근선 L∞은 양수로 유지됩니다 — 우리 모델이 축소할 수 없는 기약할 수 없는 손실.

계산-최적 능선

총 계산 예산 C ∝ N × D(매개변수 × 토큰, 대략)를 고정하세요. 이 제약을 따라 우리 곡면을 자르세요. 슬라이스 추적이 3D 곡면을 통해 2D 곡선을 자릅니다. 이 곡선의 바닥 = 계산-최적 점.

Chinchilla(Hoffmann et al 2022)는 이 바닥을 분석적으로 계산했습니다: D_opt ≈ 20 × N. 계산 예산을 따라 곡선 = 능선. 능선을 따라 걷기: 동일 계산, 감소 손실. 능선에서 떠나기(20× 토큰보다 더 많은 매개변수, 또는 더 적게): 낭비 계산.

GPT-3과 Chinchilla의 기하학적 읽음

GPT-3: 175B 매개변수, 300B 토큰. Chinchilla-최적은 175B × 20 = 3500B 토큰을 원했을 것입니다. GPT-3은 매개변수-무거운 방향에서 계산-최적 능선에서 멀리 앉아있습니다. Chinchilla 자신: 70B 매개변수가 1400B 토큰에서 훈련되었습니다. 1400 / 70 = 20 — 정확하게 능선 위에서. Chinchilla는 매개변수 개수의 절반 미만으로 GPT-3을 이겼습니다. 기하학적 최적을 앉아서.

데이터 벽을 수직 평면으로

공용 웹은 약 10¹³개 사용 가능 토큰입니다. 이것은 매개변수-토큰 평면의 D = 10¹³에서 수직 벽으로 표시됩니다. 이 벽을 넘어서, 계산-최적 훈련은 N ≤ D / 20 = 5 × 10¹¹ 매개변수를 요구합니다. N = 5 × 10¹¹를 넘는 벽은 훈련 부족(능선 벗어남)이거나 벽을 바깥쪽으로 밀기 위해 합성 / 다중모달 / RL 데이터를 요구합니다.

계산-최적 능선을 따라 걷기

우리는 GPT-3 좌표에 앉아있습니다: N = 175B 매개변수, D = 300B 토큰. 계산 프록시 C = N × D = 5.25 × 10²² 매개변수-토큰.

(a) 같은 계산 예산을 위해 D* = 20 × N*을 풀어서 Chinchilla-최적 (N*, D*)을 계산하세요. N* × D* = 5.25 × 10²²와 함께. (b) N*이 GPT-3의 175B에서 어떤 인수로 다른지를 명시하세요. (c) '상수-계산 곡선을 따라 GPT-3의 점에서 (N*, D*)로 걷는 것'이 매개변수-토큰 곡면에서 기하학적으로 어떤 모습인지를 설명하세요.

베타 사후 확률이 바늘로 타이트해지기

[0, 1]의 확률 밀도

Beta(α, β)는 단위 간격 [0, 1]에서의 확률 밀도입니다. 변수: ε = 참 오차율. 형태: α는 높은-ε 측에 질량을 제어합니다; β는 낮은-ε 측에 질량을 제어합니다.

베타 사후 확률 타이트해지기

Beta(1, 1): 균일 — 정보 없음, [0, 1] 전체에서 평탄 밀도.

Beta(α, β) α + β 크게: α / (α + β)에서 집중된 정점.

베타 정점의 너비는 1/√(α+β)로 축소됩니다. 우리 사전에 100개 관찰을 추가하면 정점을 √100 = 10배로 타이트하게 만듭니다. 10000개 관찰을 추가하면 √10000 = 100배로 타이트하게 만듭니다.

감사 실행의 기하학적 읽음

시작: Beta(1, 1) = [0, 1] 위의 평탄 사각형. ε에 대한 최대 불확실성.

200개 쿼리 및 8개 위변조 후: Beta(9, 193). 평균 = 9/202 ≈ 0.045. 밀도는 이제 0.045 근처에 중심이 있는 예리한 혹이고 특성 너비 σ ≈ 0.014입니다.

2000개 쿼리 및 80개 위변조 후: Beta(81, 1921). 평균은 여전히 ≈ 0.045이지만 너비 σ ≈ 0.0046입니다. 혹이 3배 더 예리합니다.

200,000개 쿼리 및 8000개 위변조 후: Beta(8001, 192,001). 평균 ≈ 0.040, 너비 σ ≈ 0.0004. 혹은 바늘이 됩니다.

점 질량으로의 기하학적 수렴

n → ∞이면서, 베타 사후 확률은 참 ε에서 디랙 델타로 붕괴합니다. 기하학: 사각형 → 넓은 혹 → 좁은 혹 → 바늘 → 점. 각 쿼리는 우리 분포를 1/√n으로 타이트하게 만듭니다.

이것이 이론적 PAC 경계를 이기는 이유

이론적 PAC 경계는 가설 클래스 크기에 기반한 정적 ε 추정을 제공합니다. 베타 사후 확률은 모든 관찰에 따라 타이트해지는 동적 ε 추정을 제공하며, 실제 세계 분포에 대해 보정됩니다. 이론적 경계 = 최악의 경우 가정 아래의 보장. 경험적 감사 = 실제 현실의 측정.

신뢰 간격을 반감하려면 몇 개의 쿼리가 필요합니까?

우리는 현재 200개 쿼리 후 Beta(9, 193)에서 앉아있습니다: 평균 ε ≈ 0.045, σ ≈ 0.014. 우리는 신뢰 간격 너비를 σ ≈ 0.007로 반감하고 싶습니다.

(a) σ이 1/√(α+β)로 스케일 된다고 상기합니다. σ를 반감하려면 (α + β)가 어떤 인수로 증가해야 합니까? (b) 현재 α + β = 202. 목표 α + β를 계산하세요. (c) 필요한 추가 쿼리를 계산하세요(일정한 ~4% 위변조 비율 가정). (d) σ를 반감하면 베타 밀도의 형태에 기하학적으로 무엇을 하는지를 설명하세요.