un — 기계 추론의 기하학: III

un

게스트

1 / ?

수업 목록으로

초평면으로서의 결정 경계

이진 분류기는 각 입력을 두 클래스 중 하나에 할당합니다. 분류기의 결정 경계는 입력 공간을 두 영역으로 나눕니다: 클래스당 하나씩. 그 경계의 기하학은 분류기가 학습할 수 있는 패턴을 결정합니다.

ℝ^n의 초평면: w·x + b = 0을 만족하는 모든 점 x의 집합, 여기서 w는 ℝ^n의 가중치 벡터이고 b는 스칼라 편향입니다. 초평면은 n−1 차원입니다.

2D에서: 초평면은 직선입니다. 3D에서: 평면입니다. n-D에서: 평평한 (n−1) 차원 부분공간입니다.

퍼셉트론은 w·x + b를 계산하고 양수이면 클래스 1을, 음수이면 클래스 0을 반환하여 분류합니다. 그 결정 경계는 초평면입니다.

선형 분리 가능성

데이터세트는 ℝ^n에서 선형 분리 가능하다면, 모든 클래스-0 점을 한쪽에, 모든 클래스-1 점을 다른 쪽에 놓는 초평면이 존재합니다. 이것은 데이터세트의 순수하게 기하학적 특성입니다.

결정 경계 기하학: 선형 분리 가능성 & XOR

선형 분리 가능성 테스트

2D의 AND 게이트 데이터세트: (0,0), (1,0), (0,1)의 클래스-0 점; (1,1)의 클래스-1 점. 이 데이터세트는 선형 분리 가능합니다.

2D의 XOR 데이터세트: (0,0)과 (1,1)의 클래스-0 점; (1,0)과 (0,1)의 클래스-1 점. 이 두 클래스는 대각선 반대편에 있습니다.

XOR 데이터세트가 2D에서 선형 분리 가능하지 않음을 확인하세요. 기하학적 논증을 사용하세요: 2D 평면의 직선이 두 클래스를 분리할 수 없는 이유를 설명하세요. 당신의 논증은 네 점의 위치와 분리를 불가능하게 하는 직선의 특성을 참고해야 합니다.

더 높은 차원으로 들어올리기

XOR은 2D에서 선형 분리 가능하지 않습니다. 해결책: 데이터를 더 높은 차원 공간으로 매핑하여 선형 분리 가능하게 만듭니다. 이것이 커널 트릭의 핵심 아이디어입니다.

특성 맵: 함수 φ: ℝ^n → ℝ^m (m > n)으로 각 입력 점을 더 높은 차원 표현으로 변환합니다.

XOR의 경우, 유용한 특성 맵: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

이것은 세 번째 차원 z = x₁ × x₂를 추가합니다. XOR 점들은 다음과 같이 변환됩니다:

- (0,0) → (0, 0, 0), 클래스 0

- (1,0) → (1, 0, 0), 클래스 1

- (0,1) → (0, 1, 0), 클래스 1

- (1,1) → (1, 1, 1), 클래스 0

3D에서: 클래스-0 점은 (0,0,0)과 (1,1,1)에 있고; 클래스-1 점은 (1,0,0)과 (0,1,0)에 있습니다. 이제 분리하는 평면을 찾으세요.

3D의 분리 평면

특성 맵 φ(x₁, x₂) = (x₁, x₂, x₁x₂) 이후, XOR 데이터는 3D에 있습니다. 3D의 초평면은 방정식 w₁x₁ + w₂x₂ + w₃z + b = 0을 가집니다.

변환된 3D 공간에서 XOR 클래스를 올바르게 분리하는 초평면 w·x + b = 0을 찾으세요. 네 개의 변환된 점을 모두 대입하여 당신의 초평면을 확인하세요. 각 클래스-0 점은 w·x + b < 0 (또는 > 0)을 주어야 하고 각 클래스-1 점은 반대 부호를 주어야 합니다.

Cover의 정리: 높은 차원이 도움이 되는 이유

Cover의 정리 (1965): 복잡한 분류 문제를 높은 차원 공간에 표현하면 낮은 차원 공간보다 선형 분리 가능할 가능성이 더 높습니다. 이는 공간이 밀집되지 않은 경우입니다.

비공식 진술: n개의 데이터 점을 차원 d >> n인 공간으로 매핑하면, 무작위 라벨링이 선형 분리 가능할 확률이 1에 가까워집니다.

정식 버전: ℝ^d에서 일반적 위치의 n개 점에 대해, 선형 분리 가능한 이분법(클래스 할당)의 개수는 d < n일 때 정확히 2 × Σ_{k=0}^{d} C(n−1, k)이고, d ≥ n − 1일 때 2^n (모든 이분법)과 같습니다.

실제 함의: XOR을 3D로 들어올리는 특성 맵은 이 일반 원리의 특수한 경우입니다. 더 높은 차원으로 들어올리면 분리 가능성의 기회가 증가합니다. 비용: 더 많은 매개변수를 맞춰야 하고, 과적합의 위험이 더 높습니다.

편향-분산 트레이드오프를 기하학으로 이해하기

낮은 차원 결정 경계 (적은 매개변수): 높은 편향 (복잡한 패턴을 캡처할 수 없음), 낮은 분산 (샘플 전체에서 안정적). 높은 차원 경계 (많은 매개변수): 낮은 편향, 높은 분산 (훈련 데이터의 노이즈에 과적합될 수 있음).

VC 차원: 분류기는 얼마나 표현력이 있을까?

Vapnik-Chervonenkis (VC) 차원은 가설 클래스 H의 복잡성을 측정합니다: 분쇄(shatter)할 수 있는 점의 최대 개수, 즉 모든 2^n개의 가능한 라벨링을 올바르게 분류할 수 있는 점.

ℝ^d의 퍼셉트론: VC 차원 = d + 1. d-차원 초평면은 d + 1개의 점 (일반적 위치)을 분쇄할 수 있지만 d + 2개는 불가능합니다.

VC 차원은 샘플 복잡성을 결정합니다: 일반화 오류 ε을 확률 1 − δ로 학습하려면, 대략 n ≥ (d × log(1/ε) + log(1/δ)) / ε개의 샘플이 필요합니다. 여기서 d는 VC 차원입니다.

ℝ^3의 퍼셉트론은 VC 차원이 4입니다. VC 샘플 복잡성 한계에 따르면, 일반화 오류 ε = 0.05에 도달하고 신뢰도 1 − δ = 0.95를 달성하려면 대략 몇 개의 훈련 샘플이 필요합니까? 단순화된 한계 n ≥ (d × log(1/ε) + log(1/δ)) / ε을 사용하고 주어진 값을 대입하세요. 모든 계산을 보여주세요.

결정 경계 & 기계 능력의 한계

결정 경계의 기하학은 Hamming의 기계 추론 한계와 직접 연결됩니다.

단일층 퍼셉트론 (초평면 분류기)은 XOR을 해결할 수 없습니다. 이것은 Minsky & Papert의 1969년 초기 퍼셉트론 비판입니다. 기하학적 논증: XOR은 선형 분리 불가능합니다. 기계는 그것을 해결할 수 없습니다. 이것은 컴퓨팅 파워 부족 때문이 아니라, 가설 클래스와 문제 사이의 근본적인 기하학적 불일치 때문입니다.

해결책: 다층 네트워크는 비선형 경계를 나타낼 수 있습니다. 숨겨진 층은 특성 맵 φ를 구현합니다 — 데이터를 선형 분리가 가능한 더 높은 차원으로 들어올립니다. 각 숨겨진 뉴런은 하나의 초평면을 계산합니다; 여러 초평면의 조합은 곡선을 근사합니다.

이 역사는 Hamming의 관찰과 일치합니다: 기계 추론의 모든 한계는 그 아래에 기하학적 구조가 있습니다. 질문은 기계가 '생각할 수 있는가'에 대해 논쟁하는 것이 아니라, 기하학적 제약을 식별하고 그것을 우회할 방법을 찾는 것입니다.

Minsky & Papert의 1969년 퍼셉트론 비판은 XOR 비선형 분리 가능성 논증을 사용했습니다. 그들의 책 '퍼셉트론'은 거의 신경망 연구를 10년 동안 죽였습니다. 하지만 다층 네트워크는 XOR 문제를 해결합니다. 이 역사는 기계 추론 시스템의 입증된 한계를 해석하는 올바른 방법에 대해 무엇을 시사합니까? 구체적으로: 입증된 기하학적 한계를 영구적인 것으로 이해해야 할까요, 아니면 현재 가설 클래스에 대해 우발적인 것으로 이해해야 할까요? 원칙적인 답을 제시하세요.