un — Hình học của Lý thuyết Thông tin

un

khách

1 / ?

trở lại bài học

Simplex Xác suất

Một phân phối xác suất trên q ký hiệu là một điểm trong simplex (q−1)-chiều: tập hợp tất cả các vectơ (p₁, ..., p_q) với pᵢ ≥ 0 và Σ pᵢ = 1.

Với q = 2: simplex là một đoạn thẳng [0,1], được tham số hóa bằng một xác suất p. Với q = 3: simplex là một tam giác đều trong ℝ². Mỗi góc là một phân phối xác định (tất cả xác suất tập trung trên một ký hiệu); tâm là phân phối đều.

Entropy H(p) gán một số thực cho mỗi điểm của simplex. Hình học của hàm số xác định nhiều kết quả cơ bản.

Tính lõm

H là lõm trên simplex: với bất kỳ hai phân phối p và q và bất kỳ λ ∈ [0,1]:

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

Một hỗn hợp của hai phân phối có entropy ít nhất bằng trung bình có trọng số của entropy riêng lẻ của chúng. Trực giác: trộn hai nguồn tăng độ không chắc chắn.

Đường cong Entropy & Dung lượng Kênh

Xác minh Tính lõm

Đối với entropy nhị phân H(p), tính lõm có thể nhìn thấy trong đồ thị: đường cong cong lên, không bao giờ rơi xuống dưới bất kỳ dây cung nào kết nối hai điểm.

Kiểm tra chính thức tính lõm: đạo hàm bậc hai H''(p) ≤ 0 ở mọi nơi.

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 với mọi p ∈ (0,1)

Đạo hàm bậc hai hoàn toàn âm ở khắp nơi trong phần bên trong: H là hoàn toàn lõm.

Sử dụng kiểm tra đạo hàm bậc hai để xác minh rằng H(p) là lõm. Bắt đầu từ H'(p) = log₂((1−p)/p), lấy đạo hàm một lần nữa để có H''(p). Hãy cho thấy các bước phân biệt và xác nhận H''(p) < 0 với mọi p ∈ (0,1). Điều gì được lõm hoàn toàn nghĩa là gì đối với vị trí của cực đại?

Phân phối Đạt dung lượng tối đa

Dung lượng kênh được định nghĩa là thông tin tương hỗ cực đại trên tất cả các phân phối đầu vào p(x):

C = max_{p(x)} I(X; Y)

trong đó I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).

Đối với kênh nhị phân đối xứng với xác suất lỗi Q: phân phối đầu vào đạt dung lượng là phân phối đều p(0) = p(1) = 0.5.

Tại sao: H(Y) được tối đa hóa bởi phân phối đầu ra đều. Với một BSC, một đầu vào đều cho một đầu ra đều. Bất kỳ phân phối đầu vào nào khác làm H(Y) nhỏ hơn, giảm I(X;Y).

Theo hình học: thông tin tương hỗ I(X;Y) là một hàm lõm của phân phối đầu vào p(x) trên simplex. Cực đại của một hàm lõm trên một tập hợp lồi được đạt tại một điểm duy nhất (trung tâm, đối với một kênh đối xứng).

Thông tin tương hỗ I(X;Y) là lõm trong p(x) và lồi trong kênh p(y|x). Đối với kênh nhị phân đối xứng với Q = 0.3, hãy tính dung lượng kênh C. Sau đó giải thích theo hình học tại sao cực đại của I(X;Y) trên các phân phối đầu vào được đạt tại p(0) = p(1) = 0.5 đối với một kênh đối xứng.

Phân kỳ KL

Phân kỳ Kullback-Leibler (entropy tương đối) từ phân phối q đến phân phối p:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0 luôn luôn (bất đẳng thức Gibbs). D(p || q) = 0 nếu và chỉ nếu p = q.

D không phải là một khoảng cách thực: nó là không đối xứng (D(p||q) ≠ D(q||p) nói chung) và không thỏa mãn bất đẳng thức tam giác. Nhưng nó hoạt động như một thước đo 'xa' p từ q trong không gian xác suất.

Phân kỳ KL xuất hiện xuyên suốt lý thuyết thông tin:

- Thông tin tương hỗ: I(X;Y) = D(p(x,y) || p(x)p(y)). Thông tin tương hỗ là phân kỳ KL giữa phân phối chung và tích các phân phối biên — cách xa phân phối chung từ độc lập.

- Bất đẳng thức Gibbs: định lý mã hóa không nhiễu trực tiếp từ D(p || q) ≥ 0.

- Dung lượng kênh: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).

Hình học trong Không gian Xác suất

Tính toán Phân kỳ KL

Ví dụ: p = (0.5, 0.5) phân phối đều nhị phân, q = (0.8, 0.2) phân phối sai lệch nhị phân.

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 bit

Tính toán D(q || p) cho p = (0.5, 0.5) và q = (0.8, 0.2). Hãy cho thấy công thức với các giá trị được thay thế. Sau đó so sánh D(q||p) so với D(p||q) ≈ 0.322 bit. Chúng có bằng nhau không? Cái gì này có nghĩa là gì theo hình học — tại sao phân kỳ KL không phải là một thước đo khoảng cách thực?

Dung lượng Kênh như Khoảng cách Hình học

Dung lượng kênh có một cách diễn giải hình học trong không gian của các phân phối xác suất.

Đối với một kênh p(y|x), xác định phân phối đầu vào đạt dung lượng tối đa p*(x). Dung lượng thỏa mãn:

C = D(p*(y) || r(y))

trong đó p(y) = Σ p(x) p(y|x) là phân phối đầu ra dưới đầu vào tối ưu, và r(y) = argmin_r max_x D(p(y|x) || r(y)) là phân phối đầu ra thông tin tối thiểu — điểm trong không gian xác suất đầu ra gần nhất (theo phân kỳ KL) với tất cả các phân phối đầu ra có điều kiện đồng thời.

Đây là chế độ xem hình học thông tin: dung lượng kênh là bán kính của quả cầu phân kỳ KL nhỏ nhất trong không gian phân phối xác suất đầu ra mà chứa tất cả các phân phối có điều kiện p(y|x=0) và p(y|x=1).

Đối với BSC: p(y|x=0) = (1−Q, Q) và p(y|x=1) = (Q, 1−Q). Theo tính đối xứng, phân phối đầu ra thông tin tối thiểu r(y) = (0.5, 0.5). Dung lượng = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). Công thức phục hồi kết quả tiêu chuẩn từ hình học.

Dung lượng từ Phân kỳ KL

Xác minh công thức hình học: C = D(p(y|x=0) || r(y)) cho một BSC với Q = 0.1, r(y) = (0.5, 0.5).

p(y|x=0) = (0.9, 0.1) (gửi 0, nhận 0 với xác suất 0.9, nhận 1 với xác suất 0.1).

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 bit

Kiểm tra: C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 bit ✓

Đối với một BSC với Q = 0.2, xác minh công thức dung lượng hình học bằng cách tính D(p(y|x=0) || r(y)) trong đó p(y|x=0) = (0.8, 0.2) và r(y) = (0.5, 0.5). Sử dụng log₂(1.6) ≈ 0.678 và log₂(0.4) ≈ −1.322. Sau đó xác nhận kết quả khớp với C = 1 − H(0.2).

Rate-Distortion & Giới hạn Nén dữ liệu

Lý thuyết rate-distortion mở rộng lý thuyết thông tin sang nén dữ liệu có tổn thất. Thay vì hỏi 'số bit tối thiểu để biểu diễn một nguồn chính xác là bao nhiêu?' nó hỏi: 'cho phép một số dung sai trung bình nhất định D, số tốc độ R(D) bit tối thiểu mỗi ký hiệu là bao nhiêu?'

Hàm rate-distortion R(D) là lồi và giảm dần trong D: dung sai sai lệch lớn hơn cho phép tốc độ thấp hơn. Ở D = 0 (không mất dữ liệu): R(0) = H(nguồn). Khi D tăng, R(D) → 0.

Theo hình học: R(D) theo dõi một đường cong trên mặt phẳng (tốc độ, sai lệch). Mỗi cặp (R, D) có thể đạt được nằm trên hoặc phía trên đường cong này. Những điểm dưới đường cong là không thể — bạn không thể nén dưới giới hạn cơ bản ở bất kỳ mức độ sai lệch nào.

Định lý rate-distortion (Shannon, 1959): với bất kỳ R > R(D), các mã tồn tại đạt sai lệch trung bình tối đa D. Với R < R(D): không có mã đạt sai lệch trung bình D. Đường cong là một biên giới hình học trong không gian (tốc độ, sai lệch).

Hàm rate-distortion R(D) là lồi và giảm dần. Mô tả theo các thuật ngữ hình học điều gì mà tính lồi của R(D) ngụ ý về chi phí cận biên khi giảm sai lệch khi bạn tiến gần tới D = 0. Sau đó kết nối điều này với một sự cân đối kỹ thuật thực tế: tại sao các định dạng nén có tổn thất (JPEG, MP3) hoạt động xa D = 0?