두 축, 하나의 표본-개수 곡면
두 축, 하나의 표본-개수 곡면
수평축에 ε를 표시하고(오차 허용 범위, 0에서 1 사이), 수직축에 δ를 표시합니다(실패 확률, 0에서 1 사이). 이 단위 정사각형의 각 점은 하나의 (ε, δ) 수요 쌍에 해당합니다.
각 점 위에는 표본-개수 값 m(ε, δ) = (1/ε)(ln|H| + ln(1/δ))가 있습니다. 이 m 값들이 함께 정사각형 위의 곡면을 추적합니다. 더 엄격한 요구(더 작은 ε, 더 작은 δ)는 우리 곡면을 위쪽으로 당기고; 더 느슨한 요구는 이를 평평하게 만듭니다.
등표본-개수 윤곽선
우리 곡면을 평면으로 다시 투영하여 등-m 윤곽선으로 표시합니다. 단일 윤곽선 위의 모든 (ε, δ) 쌍은 동일한 표본 예산이 필요합니다. 윤곽선을 따라 이동하여 오차 허용 범위를 신뢰도로 교환하되 고정된 비용입니다.
축 반감
수평축을 따라 ε를 반으로 나누면 m이 2배 증가합니다(1/ε에서 선형). 수직축을 따라 δ를 반으로 나누면 m이 ln(2) ≈ 0.69만큼 증가합니다(1/δ에서 로그). 기하학은 우리에게 말합니다: 오차 허용 범위가 신뢰도보다 더 가파른 비용을 가집니다.
예산 곡면 읽기
우리는 가설 클래스 |H| = 10⁶에 대해 점 (ε = 0.05, δ = 0.05)에 있습니다. 표본 요구 사항 m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336입니다.
점 구름 위의 이분법
분쇄는 어떤 모양입니까
우리 평면에 n개의 점을 배치합니다. 가설 클래스를 선택합니다(선형 분류자 = 직선). 우리 클래스가 그 n개의 점을 라벨할 수 있는 서로 다른 방법의 개수를 세세요(직선의 각 측면에 +/−). 이 개수를 Π_H(n)이라고 부릅니다.
Π_H(n) = 2ⁿ이면, 우리 클래스는 그 점 집합을 분쇄합니다 — 가능한 모든 라벨 지정을 생성할 수 있습니다. Π_H(n) < 2ⁿ이면, 일부 라벨 지정이 발생할 수 없습니다.
일반적인 위치에 있는 세 점
ℝ²의 선형 분류자는 비-공선 3개 점을 분쇄합니다. 2³ = 8개 라벨 지정; 모든 8개가 어떤 직선으로 달성 가능합니다. 어떤 3개 점이든 선택하세요; 각 ±/± 라벨 지정에 대해 양수와 음수를 분리하는 직선을 그리세요.
네 점은 분쇄를 거부합니다
정사각형의 모서리에 4개의 점을 배치합니다. 대각선 쌍을 양수로, 반대각선 쌍을 음수로 라벨 지정하세요(XOR 라벨 지정). 직선이 이를 분리할 수 없습니다. 따라서 Π_H(4) ≤ 14 < 16 = 2⁴입니다.
VC 차원을 최대 분쇄 크기로
VC(선형 ℝ²) = 3입니다. 우리는 3개의 점을 분쇄할 수 있고; 4개는 분쇄할 수 없습니다. VC는 우리 가설 클래스의 최대 이분법 용량을 세계합니다.
기하학적 직관
높은 VC = 우리 클래스가 더 복잡한 결정 경계를 그립니다. 선형(d 차원에서 VC = d+1)은 초평면을 그립니다. 다항식은 곡선을 그립니다. 신경망은 매우 접힌 다양체를 그립니다. 더 많은 접힘 = 더 많은 이분법 = 더 높은 VC = 더 높은 표본 요구 사항.
이분법 세기
ℝ²의 선형 분류자(직선)를 고려합니다. 우리는 일반적인 위치에 5개의 점을 배치했습니다(비-공선 3개, 중복 없음).
가설 다양체 위의 확률 질량
PAC-Bayes 시각화
우리 가설 공간을 고차원 다양체로 생각해보세요. 이 다양체의 각 점은 신경망의 한 가중치 구성에 해당합니다. 사전 P는 우리 다양체를 통해 확률 분포를 할당합니다(종종 초기화 중심의 가우스). 사후 확률 Q는 훈련 데이터가 우리 가중치를 몬 위치에서 확률 질량을 집중시킵니다.
KL 발산을 기하학적 거리로
KL(Q‖P)는 Q가 P에서 얼마나 멀리 떠났는지를 측정합니다. 기하학적 읽음: 사후 클라우드가 사전 클라우드에서 얼마나 이동했는지, 각 사후 영역이 사전에서 얼마나 가능성이 없었는지에 의해 가중됩니다.
작은 KL = Q가 P와 크게 겹칩니다. 사후는 거의 이동하지 않았습니다. 일반화 간격이 작게 유지됩니다.
큰 KL = Q가 P가 작은 질량을 할당한 영역에 집중됩니다. 사후가 많이 이동했습니다. 일반화 간격이 증가합니다.
이 기하학이 왜 중요한가
SGD를 우리 가설 다양체를 통한 검색 궤적으로 상상해보세요. 궤적은 낮은 훈련 손실의 분지에서 끝납니다. PAC-Bayes가 묻습니다: 이 분지는 얼마나 넓습니까?
넓은 분지 = 많은 인접한 가중치 구성도 낮은 훈련 손실을 달성합니다. 사후 Q는 넓은 영역에 펼쳐지고도 여전히 낮은 위험도를 가질 수 있습니다. KL(Q‖P)이 제한된 상태로 유지됩니다. 일반화 간격이 작습니다.
좁은 분지 = 겨우 얇은 가중치 집합만이 낮은 손실을 달성합니다. 사후는 예리하게 집중해야 합니다. KL이 증가합니다. 일반화 간격이 넓어집니다.
이것은 평탄 vs 예리한 최솟값 담론(Hochreiter & Schmidhuber 1997, Keskar et al 2017)과 직접 연결됩니다. 평탄한 최솟값은 더 작은 KL을 가진 더 넓은 사후를 지원할 수 있기 때문에 더 잘 일반화합니다.
분지 너비 읽기
두 훈련 모델이 동일한 훈련 손실에 도달하지만 다른 분지에 위치합니다:
- 모델 A: 평탄 분지, 사후가 KL(Q_A‖P) = 50 nats인 영역에 펼쳐집니다.
- 모델 B: 예리한 분지, 사후가 KL(Q_B‖P) = 500 nats로 집중됩니다.
둘 다 n = 10,000개 예시에서 경험적 위험 0.05, δ = 0.05로 훈련되었습니다.
이론이 상승을 예측한 곡선이 하강하는 곳
고전적 U-곡선
수평축에 모델 용량을, 수직축에 테스트 위험을 표시합니다. 고전적 편향-분산 이론은 다음을 예측합니다:
- 낮은 용량: 높은 편향, 높은 테스트 위험(과소적합)
- 중간 용량: 낮은 편향 + 낮은 분산, 낮은 테스트 위험(달콤한 자리)
- 높은 용량: 낮은 편향, 높은 분산, 높은 테스트 위험(과적합)
결과: U 모양 곡선. 우리 최저점에서 용량을 선택하세요.
Belkin et al (2019)가 관찰한 것
내삽 임계값(모델이 정확히 훈련 데이터에 맞아 0 오차 포함)을 지나가면, 테스트 위험이 다시 하강합니다. 곡선은 읽습니다: 하강 → 내삽에서 정점 → 두 번째 하강. 두 개의 하강, 한 곡선.
두 번째 하강의 기하학적 읽음
내삽 임계값에서, 모델은 훈련 데이터에 정확하게 맞을 충분한 용량만 가지고 있습니다 — 겨우 하나(또는 적은) 내삽 솔루션만 존재하며 그들은 들쭉날쭉할 수 있습니다. 일반화가 고통받습니다. 왜냐하면 선택된 솔루션이 강제되기 때문입니다.
내삽 임계값을 지난 후, 많은 내삽 솔루션이 존재합니다. SGD는 매끄러운 솔루션을 선택할 자유가 있습니다(최소-노름, 낮은-곡률). 기하학적 그림: 솔루션 다양체가 더 넓고 평평해집니다. SGD의 암묵적 정규화는 이 평탄한 다양체에서 건양한 솔루션을 선택합니다. 테스트 위험이 하강합니다.
고전적 이론이 이를 놓치는 이유
VC 차원은 솔루션-집합 용량을 세지만 어느 솔루션이 선택되는지는 무시합니다. 고전적 경계는 최악의 경우 경험적 위험 최소화를 가정합니다. 현실: SGD는 안정적으로 가장 평탄하고, 가장 매끄러운 내삽 솔루션을 선택합니다. 모든 솔루션 대신 솔버-선택된 솔루션을 세면, 두 번째 하강이 의미 있습니다.
기하학적 수용 - 집계
용량이 분지 기하학보다 덜 중요합니다. 넓은 평탄한 분지(내삽 후)는 좁고 예리한 것(내삽에서)보다 더 잘 일반화합니다. 현대 이론은 매개변수 개수가 아니라 분지 너비로 일반화를 제한하려고 시도합니다.
두 하강 위치 지정
이중 하강 곡선에서, 세 영역이 중요합니다: (1) 과소-매개변수화 영역, (2) 내삽 정점, (3) 과-매개변수화 영역.
매개변수-토큰 공간의 멱법칙 곡면
3D 곡면
한 수평축에 매개변수 N을, 두 번째 수평축에 토큰 D를, 수직축에 손실 L을 표시합니다. 경험적 손실은 이 (N, D) 평면에서 멱법칙 곡면을 새깁니다:
L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞
곡면은 N이나 D가 증가하면서 아래로 경사집니다. 경사는 로그-선형 멱법칙을 따릅니다(로그-로그 그림에서 직선). 점근선 L∞은 양수로 유지됩니다 — 우리 모델이 축소할 수 없는 기약할 수 없는 손실.
계산-최적 능선
총 계산 예산 C ∝ N × D(매개변수 × 토큰, 대략)를 고정하세요. 이 제약을 따라 우리 곡면을 자르세요. 슬라이스 추적이 3D 곡면을 통해 2D 곡선을 자릅니다. 이 곡선의 바닥 = 계산-최적 점.
Chinchilla(Hoffmann et al 2022)는 이 바닥을 분석적으로 계산했습니다: D_opt ≈ 20 × N. 계산 예산을 따라 곡선 = 능선. 능선을 따라 걷기: 동일 계산, 감소 손실. 능선에서 떠나기(20× 토큰보다 더 많은 매개변수, 또는 더 적게): 낭비 계산.
GPT-3과 Chinchilla의 기하학적 읽음
GPT-3: 175B 매개변수, 300B 토큰. Chinchilla-최적은 175B × 20 = 3500B 토큰을 원했을 것입니다. GPT-3은 매개변수-무거운 방향에서 계산-최적 능선에서 멀리 앉아있습니다. Chinchilla 자신: 70B 매개변수가 1400B 토큰에서 훈련되었습니다. 1400 / 70 = 20 — 정확하게 능선 위에서. Chinchilla는 매개변수 개수의 절반 미만으로 GPT-3을 이겼습니다. 기하학적 최적을 앉아서.
데이터 벽을 수직 평면으로
공용 웹은 약 10¹³개 사용 가능 토큰입니다. 이것은 매개변수-토큰 평면의 D = 10¹³에서 수직 벽으로 표시됩니다. 이 벽을 넘어서, 계산-최적 훈련은 N ≤ D / 20 = 5 × 10¹¹ 매개변수를 요구합니다. N = 5 × 10¹¹를 넘는 벽은 훈련 부족(능선 벗어남)이거나 벽을 바깥쪽으로 밀기 위해 합성 / 다중모달 / RL 데이터를 요구합니다.
계산-최적 능선을 따라 걷기
우리는 GPT-3 좌표에 앉아있습니다: N = 175B 매개변수, D = 300B 토큰. 계산 프록시 C = N × D = 5.25 × 10²² 매개변수-토큰.
베타 사후 확률이 바늘로 타이트해지기
[0, 1]의 확률 밀도
Beta(α, β)는 단위 간격 [0, 1]에서의 확률 밀도입니다. 변수: ε = 참 오차율. 형태: α는 높은-ε 측에 질량을 제어합니다; β는 낮은-ε 측에 질량을 제어합니다.
Beta(1, 1): 균일 — 정보 없음, [0, 1] 전체에서 평탄 밀도.
Beta(α, β) α + β 크게: α / (α + β)에서 집중된 정점.
베타 정점의 너비는 1/√(α+β)로 축소됩니다. 우리 사전에 100개 관찰을 추가하면 정점을 √100 = 10배로 타이트하게 만듭니다. 10000개 관찰을 추가하면 √10000 = 100배로 타이트하게 만듭니다.
감사 실행의 기하학적 읽음
시작: Beta(1, 1) = [0, 1] 위의 평탄 사각형. ε에 대한 최대 불확실성.
200개 쿼리 및 8개 위변조 후: Beta(9, 193). 평균 = 9/202 ≈ 0.045. 밀도는 이제 0.045 근처에 중심이 있는 예리한 혹이고 특성 너비 σ ≈ 0.014입니다.
2000개 쿼리 및 80개 위변조 후: Beta(81, 1921). 평균은 여전히 ≈ 0.045이지만 너비 σ ≈ 0.0046입니다. 혹이 3배 더 예리합니다.
200,000개 쿼리 및 8000개 위변조 후: Beta(8001, 192,001). 평균 ≈ 0.040, 너비 σ ≈ 0.0004. 혹은 바늘이 됩니다.
점 질량으로의 기하학적 수렴
n → ∞이면서, 베타 사후 확률은 참 ε에서 디랙 델타로 붕괴합니다. 기하학: 사각형 → 넓은 혹 → 좁은 혹 → 바늘 → 점. 각 쿼리는 우리 분포를 1/√n으로 타이트하게 만듭니다.
이것이 이론적 PAC 경계를 이기는 이유
이론적 PAC 경계는 가설 클래스 크기에 기반한 정적 ε 추정을 제공합니다. 베타 사후 확률은 모든 관찰에 따라 타이트해지는 동적 ε 추정을 제공하며, 실제 세계 분포에 대해 보정됩니다. 이론적 경계 = 최악의 경우 가정 아래의 보장. 경험적 감사 = 실제 현실의 측정.
신뢰 간격을 반감하려면 몇 개의 쿼리가 필요합니까?
우리는 현재 200개 쿼리 후 Beta(9, 193)에서 앉아있습니다: 평균 ε ≈ 0.045, σ ≈ 0.014. 우리는 신뢰 간격 너비를 σ ≈ 0.007로 반감하고 싶습니다.