확률 심플렉스
q개의 심볼에 대한 확률 분포는 (q−1)-차원 심플렉스의 한 점이다: pᵢ ≥ 0이고 Σ pᵢ = 1인 모든 벡터 (p₁, ..., p_q)의 집합.
q = 2인 경우: 심플렉스는 선분 [0,1]이고, 단일 확률 p로 매개변수화된다. q = 3인 경우: 심플렉스는 ℝ²의 정삼각형이다. 모든 꼭짓점은 결정론적 분포(한 심볼에 모든 확률을 집중)이고, 중심은 균등 분포이다.
엔트로피 H(p)는 심플렉스의 각 점에 실수를 할당한다. 함수의 기하학은 많은 기본 결과들을 결정한다.
오목성
H는 심플렉스에서 오목이다: 임의의 두 분포 p, q와 λ ∈ [0,1]에 대해:
H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)
두 분포의 혼합은 개별 엔트로피의 가중 평균보다 크거나 같은 엔트로피를 가진다. 직관: 두 원천을 혼합하면 불확실성이 증가한다.
오목성 검증
이진 엔트로피 H(p)의 경우, 오목성은 그래프에서 보인다: 곡선이 위로 볼록하며, 두 점을 연결하는 어떤 현 아래로도 떨어지지 않는다.
오목성의 형식적 검사: 2차 미분 H''(p) ≤ 0이 모든 곳에서 성립한다.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)
H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 for all p ∈ (0,1)
2차 미분은 내부의 모든 점에서 순음수이다: H는 순오목이다.
용량 달성 분포
채널 용량은 모든 입력 분포에 걸쳐 상호 정보의 최댓값으로 정의된다:
C = max_{p(x)} I(X; Y)
여기서 I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).
오류 확률 Q인 이진 대칭 채널의 경우: 용량 달성 입력 분포는 균등 분포 p(0) = p(1) = 0.5이다.
이유: H(Y)는 균등 출력 분포에 의해 최대화된다. BSC에서, 균등 입력은 균등 출력을 제공한다. 다른 입력 분포는 H(Y)를 더 작게 만들어 I(X;Y)를 감소시킨다.
기하학적으로: 상호 정보 I(X;Y)는 심플렉스 위의 입력 분포 p(x)에서 오목 함수이다. 볼록 집합에서 오목 함수의 최댓값은 유일한 점(대칭 채널의 경우 중심)에서 달성된다.
KL 발산
Kullback-Leibler 발산(상대 엔트로피)은 분포 q에서 분포 p로:
D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)
D(p || q) ≥ 0이 항상 성립한다(Gibbs 부등식). D(p || q) = 0이면 그리고 p = q일 때만.
D는 참 거리가 아니다: 비대칭이고(일반적으로 D(p||q) ≠ D(q||p)) 삼각 부등식을 만족하지 않는다. 하지만 p가 확률 공간에서 q로부터 얼마나 '먼지'를 측정하는 역할을 한다.
KL 발산은 정보 이론 전체에 나타난다:
- 상호 정보: I(X;Y) = D(p(x,y) || p(x)p(y)). 상호 정보는 결합 분포와 한계 분포의 곱 사이의 KL 발산이다 — 결합이 독립성으로부터 얼마나 먼가.
- Gibbs 부등식: 잡음 없는 코딩 정리는 D(p || q) ≥ 0에서 직접 나온다.
- 채널 용량: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).
KL 발산 계산
예: p = (0.5, 0.5) 균등 이진, q = (0.8, 0.2) 편향 이진.
D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)
= 0.5 log₂(0.625) + 0.5 log₂(2.5)
≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 비트
기하학적 거리로서의 채널 용량
채널 용량은 확률 분포 공간에서 기하학적 해석을 가진다.
채널 p(y|x)에 대해, 용량 달성 입력 분포 p*(x)를 정의하라. 용량은 다음을 만족한다:
C = D(p*(y) || r(y))
여기서 p(y) = Σ p(x) p(y|x)는 최적 입력 아래의 출력 분포이고, r(y) = argmin_r max_x D(p(y|x) || r(y))는 최소 정보 출력 분포 — 출력 확률 공간의 모든 조건부 분포 p(y|x=0)과 p(y|x=1)과 동시에 가장 가까운(KL 발산 의미에서) 점이다.
이것이 정보-기하학적 관점이다: 채널 용량은 출력 분포 공간에서 모든 조건부 분포 p(y|x)를 포함하는 가장 작은 KL-발산 공 반경이다.
BSC의 경우: p(y|x=0) = (1−Q, Q)이고 p(y|x=1) = (Q, 1−Q). 대칭성에 의해, 최소 정보 출력 r(y) = (0.5, 0.5). 용량 = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). 공식이 기하학에서 표준 결과를 복구한다.
KL 발산에서의 용량
기하학적 공식을 검증하라: C = D(p(y|x=0) || r(y)) (Q = 0.1인 BSC, r(y) = (0.5, 0.5)).
p(y|x=0) = (0.9, 0.1) (0을 보내면, 0.9 확률로 0을 받고, 0.1 확률로 1을 받음).
D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)
= 0.9 log₂(1.8) + 0.1 log₂(0.2)
log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322
= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 비트
확인: C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 비트 ✓
률-왜곡 & 압축의 한계
률-왜곡 이론은 정보 이론을 손실 있는 압축으로 확장한다. '원본을 정확히 나타내기 위한 최소 비트는 무엇인가?'라고 묻는 대신, '어떤 평균 왜곡 D에 대한 허용 오차가 주어질 때, 최소 률 R(D) 비트/심볼은 무엇인가?'라고 묻는다.
률-왜곡 함수 R(D)는 D에서 볼록이고 감소한다: 더 많은 왜곡 허용은 낮은 률을 허용한다. D = 0인 경우(무손실): R(0) = H(원본). D가 증가하면, R(D) → 0.
기하학적으로: R(D)는 (률, 왜곡) 평면에서 곡선을 그린다. 달성 가능한 모든 (R, D) 쌍은 이 곡선 위에 있거나 위에 있다. 곡선 아래 점들은 불가능하다 — 모든 왜곡 수준에서 기본 한계 아래로 압축할 수 없다.
률-왜곡 정리(Shannon, 1959): R > R(D)인 모든 R에 대해, 최대 D의 예상 왜곡을 달성하는 코드가 존재한다. R < R(D): 어떤 코드도 왜곡 D를 달성하지 못한다. 곡선은 (률, 왜곡) 공간의 기하학적 경계이다.