Simplex Probabilitas
Suatu distribusi probabilitas atas q simbol adalah titik dalam simplex (q−1)-dimensional: himpunan semua vektor (p₁, ..., p_q) dengan pᵢ ≥ 0 dan Σ pᵢ = 1.
Untuk q = 2: simplex adalah ruas garis [0,1], yang diparameterisasi oleh probabilitas tunggal p. Untuk q = 3: simplex adalah segitiga sama sisi dalam ℝ². Setiap sudut adalah distribusi deterministik (semua probabilitas pada satu simbol); pusat adalah distribusi seragam.
Entropi H(p) menetapkan bilangan real ke setiap titik simplex. Geometri fungsi menentukan banyak hasil fundamental.
Kekonkavan
H adalah konkav pada simplex: untuk setiap dua distribusi p dan q dan setiap λ ∈ [0,1]:
H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)
Suatu campuran dari dua distribusi memiliki entropi setidaknya sebesar rata-rata tertimbang dari entropi individual mereka. Intuisi: mencampur dua sumber meningkatkan ketidakpastian.
Memverifikasi Kekonkavan
Untuk entropi biner H(p), kekonkavan terlihat dalam grafik: kurva melengkung ke atas, tidak pernah jatuh di bawah tali apa pun yang menghubungkan dua titik.
Tes formal untuk kekonkavan: turunan kedua H''(p) ≤ 0 di mana-mana.
H(p) = −p log₂(p) − (1−p) log₂(1−p)
H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)
H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 untuk semua p ∈ (0,1)
Turunan kedua adalah negatif murni di mana-mana di interior: H adalah konkav murni.
Distribusi yang Mencapai Kapasitas
Kapasitas saluran didefinisikan sebagai informasi bersama maksimum atas semua distribusi input p(x):
C = max_{p(x)} I(X; Y)
di mana I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).
Untuk saluran simetris biner dengan probabilitas kesalahan Q: distribusi input yang mencapai kapasitas adalah distribusi seragam p(0) = p(1) = 0.5.
Mengapa: H(Y) dimaksimalkan oleh distribusi output seragam. Dengan BSC, input seragam menghasilkan output seragam. Setiap distribusi input lainnya membuat H(Y) lebih kecil, mengurangi I(X;Y).
Secara geometris: informasi bersama I(X;Y) adalah fungsi konkav dari distribusi input p(x) pada simplex. Maksimum dari fungsi konkav pada himpunan konveks dicapai pada titik unik (pusat, untuk saluran simetris).
Divergensi KL
Divergensi Kullback-Leibler (entropi relatif) dari distribusi q ke distribusi p:
D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)
D(p || q) ≥ 0 selalu (ketidaksetaraan Gibbs). D(p || q) = 0 jika dan hanya jika p = q.
D bukan jarak sejati: ia asimetris (D(p||q) ≠ D(q||p) pada umumnya) dan tidak memenuhi ketidaksetaraan segitiga. Tetapi ia bertindak sebagai ukuran seberapa 'jauh' p dari q dalam ruang probabilitas.
Divergensi KL muncul di seluruh teori informasi:
- Informasi bersama: I(X;Y) = D(p(x,y) || p(x)p(y)). Informasi bersama adalah divergensi KL antara distribusi bersama dan produk marginal — seberapa jauh bersama dari kemandirian.
- Ketidaksetaraan Gibbs: teorema pengkodean tanpa kebisingan mengikuti langsung dari D(p || q) ≥ 0.
- Kapasitas saluran: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).
Menghitung Divergensi KL
Contoh: p = (0.5, 0.5) biner seragam, q = (0.8, 0.2) biner bias.
D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)
= 0.5 log₂(0.625) + 0.5 log₂(2.5)
≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 bit
Kapasitas Saluran sebagai Jarak Geometris
Kapasitas saluran memiliki interpretasi geometris dalam ruang distribusi probabilitas.
Untuk saluran p(y|x), tentukan distribusi input yang mencapai kapasitas p*(x). Kapasitas memenuhi:
C = D(p*(y) || r(y))
di mana p(y) = Σ p(x) p(y|x) adalah distribusi output di bawah input optimal, dan r(y) = argmin_r max_x D(p(y|x) || r(y)) adalah distribusi output informasi minimum — titik dalam ruang probabilitas output yang paling dekat (dalam divergensi KL) ke semua distribusi output bersyarat secara bersamaan.
Ini adalah pandangan informasi-geometris: kapasitas saluran adalah radius bola divergensi KL terkecil dalam ruang distribusi output yang berisi semua distribusi bersyarat p(y|x=0) dan p(y|x=1).
Untuk BSC: p(y|x=0) = (1−Q, Q) dan p(y|x=1) = (Q, 1−Q). Menurut simetri, distribusi output informasi minimum r(y) = (0.5, 0.5). Kapasitas = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). Formula memulihkan hasil standar dari geometri.
Kapasitas dari Divergensi KL
Verifikasi formula geometris: C = D(p(y|x=0) || r(y)) untuk BSC dengan Q = 0.1, r(y) = (0.5, 0.5).
p(y|x=0) = (0.9, 0.1) (kirim 0, terima 0 dengan prob 0.9, terima 1 dengan prob 0.1).
D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)
= 0.9 log₂(1.8) + 0.1 log₂(0.2)
log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322
= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 bit
Periksa: C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 bit ✓
Rate-Distortion & Batas Kompresi
Teori rate-distortion memperluas teori informasi ke kompresi lossy. Bukan bertanya 'berapa bit minimum untuk mewakili sumber dengan tepat?' tetapi bertanya: 'mengingat toleransi untuk beberapa distorsi rata-rata D, berapa laju minimum R(D) bit per simbol?'
Fungsi rate-distortion R(D) adalah konveks dan menurun dalam D: toleransi distorsi lebih besar memungkinkan laju lebih rendah. Pada D = 0 (lossless): R(0) = H(sumber). Saat D meningkat, R(D) → 0.
Secara geometris: R(D) melacak kurva pada bidang (laju, distorsi). Setiap pasangan (R, D) yang dapat dicapai terletak pada atau di atas kurva ini. Titik di bawah kurva tidak mungkin — Anda tidak dapat mengompresi di bawah batas fundamental pada tingkat distorsi apa pun.
Teorema rate-distortion (Shannon, 1959): untuk setiap R > R(D), kode ada mencapai distorsi yang diharapkan paling banyak D. Untuk R < R(D): tidak ada kode mencapai distorsi yang diharapkan D. Kurva adalah perbatasan geometris dalam ruang (laju, distorsi).