un — 정보 이론의 기하학

un

게스트

1 / ?

수업 목록으로

확률 심플렉스

q개의 심볼에 대한 확률 분포는 (q−1)-차원 심플렉스의 한 점이다: pᵢ ≥ 0이고 Σ pᵢ = 1인 모든 벡터 (p₁, ..., p_q)의 집합.

q = 2인 경우: 심플렉스는 선분 [0,1]이고, 단일 확률 p로 매개변수화된다. q = 3인 경우: 심플렉스는 ℝ²의 정삼각형이다. 모든 꼭짓점은 결정론적 분포(한 심볼에 모든 확률을 집중)이고, 중심은 균등 분포이다.

엔트로피 H(p)는 심플렉스의 각 점에 실수를 할당한다. 함수의 기하학은 많은 기본 결과들을 결정한다.

오목성

H는 심플렉스에서 오목이다: 임의의 두 분포 p, q와 λ ∈ [0,1]에 대해:

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

두 분포의 혼합은 개별 엔트로피의 가중 평균보다 크거나 같은 엔트로피를 가진다. 직관: 두 원천을 혼합하면 불확실성이 증가한다.

Entropy Curve & Channel Capacity

오목성 검증

이진 엔트로피 H(p)의 경우, 오목성은 그래프에서 보인다: 곡선이 위로 볼록하며, 두 점을 연결하는 어떤 현 아래로도 떨어지지 않는다.

오목성의 형식적 검사: 2차 미분 H''(p) ≤ 0이 모든 곳에서 성립한다.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 for all p ∈ (0,1)

2차 미분은 내부의 모든 점에서 순음수이다: H는 순오목이다.

2차 미분 검사를 사용하여 H(p)가 오목임을 검증하시오. H'(p) = log₂((1−p)/p)에서 시작하여 한 번 더 미분하여 H''(p)를 구하시오. 미분 단계들을 보이고 모든 p ∈ (0,1)에 대해 H''(p) < 0임을 확인하시오. 순오목성이 최댓값의 위치에 대해 무엇을 시사하는가?

용량 달성 분포

채널 용량은 모든 입력 분포에 걸쳐 상호 정보의 최댓값으로 정의된다:

C = max_{p(x)} I(X; Y)

여기서 I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).

오류 확률 Q인 이진 대칭 채널의 경우: 용량 달성 입력 분포는 균등 분포 p(0) = p(1) = 0.5이다.

이유: H(Y)는 균등 출력 분포에 의해 최대화된다. BSC에서, 균등 입력은 균등 출력을 제공한다. 다른 입력 분포는 H(Y)를 더 작게 만들어 I(X;Y)를 감소시킨다.

기하학적으로: 상호 정보 I(X;Y)는 심플렉스 위의 입력 분포 p(x)에서 오목 함수이다. 볼록 집합에서 오목 함수의 최댓값은 유일한 점(대칭 채널의 경우 중심)에서 달성된다.

상호 정보 I(X;Y)는 p(x)에 대해 오목이고 채널 p(y|x)에 대해 볼록이다. Q = 0.3인 이진 대칭 채널의 경우, 채널 용량 C를 계산하시오. 그 다음 대칭 채널에서 입력 분포에 대한 I(X;Y)의 최댓값이 p(0) = p(1) = 0.5에서 달성되는 이유를 기하학적으로 설명하시오.

KL 발산

Kullback-Leibler 발산(상대 엔트로피)은 분포 q에서 분포 p로:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0이 항상 성립한다(Gibbs 부등식). D(p || q) = 0이면 그리고 p = q일 때만.

D는 참 거리가 아니다: 비대칭이고(일반적으로 D(p||q) ≠ D(q||p)) 삼각 부등식을 만족하지 않는다. 하지만 p가 확률 공간에서 q로부터 얼마나 '먼지'를 측정하는 역할을 한다.

KL 발산은 정보 이론 전체에 나타난다:

- 상호 정보: I(X;Y) = D(p(x,y) || p(x)p(y)). 상호 정보는 결합 분포와 한계 분포의 곱 사이의 KL 발산이다 — 결합이 독립성으로부터 얼마나 먼가.

- Gibbs 부등식: 잡음 없는 코딩 정리는 D(p || q) ≥ 0에서 직접 나온다.

- 채널 용량: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).

Geometry in Probability Space

KL 발산 계산

예: p = (0.5, 0.5) 균등 이진, q = (0.8, 0.2) 편향 이진.

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 비트

p = (0.5, 0.5)이고 q = (0.8, 0.2)일 때 D(q || p)를 계산하시오. 공식에 대입한 값들을 보이시오. 그 다음 D(q||p) vs. D(p||q) ≈ 0.322 비트를 비교하시오. 같은가? 이 비대칭성이 기하학적으로 무엇을 의미하는가 — KL 발산이 참 거리 메트릭이 아닌 이유는 무엇인가?

기하학적 거리로서의 채널 용량

채널 용량은 확률 분포 공간에서 기하학적 해석을 가진다.

채널 p(y|x)에 대해, 용량 달성 입력 분포 p*(x)를 정의하라. 용량은 다음을 만족한다:

C = D(p*(y) || r(y))

여기서 p(y) = Σ p(x) p(y|x)는 최적 입력 아래의 출력 분포이고, r(y) = argmin_r max_x D(p(y|x) || r(y))는 최소 정보 출력 분포 — 출력 확률 공간의 모든 조건부 분포 p(y|x=0)과 p(y|x=1)과 동시에 가장 가까운(KL 발산 의미에서) 점이다.

이것이 정보-기하학적 관점이다: 채널 용량은 출력 분포 공간에서 모든 조건부 분포 p(y|x)를 포함하는 가장 작은 KL-발산 공 반경이다.

BSC의 경우: p(y|x=0) = (1−Q, Q)이고 p(y|x=1) = (Q, 1−Q). 대칭성에 의해, 최소 정보 출력 r(y) = (0.5, 0.5). 용량 = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). 공식이 기하학에서 표준 결과를 복구한다.

KL 발산에서의 용량

기하학적 공식을 검증하라: C = D(p(y|x=0) || r(y)) (Q = 0.1인 BSC, r(y) = (0.5, 0.5)).

p(y|x=0) = (0.9, 0.1) (0을 보내면, 0.9 확률로 0을 받고, 0.1 확률로 1을 받음).

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 비트

확인: C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 비트 ✓

Q = 0.2인 BSC에 대해, 기하학적 용량 공식을 검증하시오. D(p(y|x=0) || r(y))를 계산하시오. 여기서 p(y|x=0) = (0.8, 0.2)이고 r(y) = (0.5, 0.5)이다. log₂(1.6) ≈ 0.678과 log₂(0.4) ≈ −1.322를 사용하시오. 그 다음 결과가 C = 1 − H(0.2)와 일치함을 확인하시오.

률-왜곡 & 압축의 한계

률-왜곡 이론은 정보 이론을 손실 있는 압축으로 확장한다. '원본을 정확히 나타내기 위한 최소 비트는 무엇인가?'라고 묻는 대신, '어떤 평균 왜곡 D에 대한 허용 오차가 주어질 때, 최소 률 R(D) 비트/심볼은 무엇인가?'라고 묻는다.

률-왜곡 함수 R(D)는 D에서 볼록이고 감소한다: 더 많은 왜곡 허용은 낮은 률을 허용한다. D = 0인 경우(무손실): R(0) = H(원본). D가 증가하면, R(D) → 0.

기하학적으로: R(D)는 (률, 왜곡) 평면에서 곡선을 그린다. 달성 가능한 모든 (R, D) 쌍은 이 곡선 위에 있거나 위에 있다. 곡선 아래 점들은 불가능하다 — 모든 왜곡 수준에서 기본 한계 아래로 압축할 수 없다.

률-왜곡 정리(Shannon, 1959): R > R(D)인 모든 R에 대해, 최대 D의 예상 왜곡을 달성하는 코드가 존재한다. R < R(D): 어떤 코드도 왜곡 D를 달성하지 못한다. 곡선은 (률, 왜곡) 공간의 기하학적 경계이다.

률-왜곡 함수 R(D)는 볼록이고 감소한다. R(D)의 볼록성이 D = 0에 가까워질수록 왜곡을 줄이는 한계 비용에 대해 기하학적으로 무엇을 시사하는가를 설명하시오. 그 다음 이것을 실질적인 엔지니어링 트레이드오프와 연결하시오: 손실 있는 압축 형식(JPEG, MP3)이 왜 D = 0에서 멀리 떨어져 있는가?