Olasılık Simplexi
q sembol üzerinde bir olasılık dağılımı, (q-1) boyutlu simplexi'nde bir nokta: p₁, ..., p_q vektörleri için pᵢ ≥ 0 ve Σ pᵢ = 1 olan tüm vektörlerin kümesidir.
q = 2 için: simplexi bir doğru segmenti [0,1], tek bir olasılık p tarafından parametrelendirilir. q = 3 için: simplexi ℝ² içinde eşkenar bir üçgendir. Her bir köşe, bir sembol üzerinde tüm olasılığı olan deterministik bir dağılımdır; merkez, eşit dağılımı temsil eder.
Entropy H(p) her simplexi noktasına bir gerçek sayı atar. Fonksiyonun geometrisi birçok temel sonucu belirler.
Konveksite
H, simplexi üzerinde konvekstir: herhangi iki dağılım p ve q ve herhangi λ ∈ [0,1] için:
H(λp + (1-λ)q) ≥ λH(p) + (1-λ)H(q)
İkisi de iki dağılımın karmaşık oluşturulması, bireysel entropileri arasındaki ağırlıklı ortalamadan en az büyük entropiye sahiptir. Mantık: iki kaynağın birleşimi belirsizliği artırır.
Konveksitenin Doğrulanması
İki sembol entropisi H(p) için konveksite, grafikte görülebilir: eğri yukarı doğru kıvrılır, iki nokta arasında herhangi bir çizgi bağlayan hiçbir zaman altında düşmez.
Formel test için konveksite: ikincil türev H''(p) ≤ 0 her yerde.
H(p) = −p log₂(p) − (1-p) log₂(1-p)
H'(p) = −log₂(p) − 1/ln(2) + log₂(1-p) + 1/ln(2) = log₂((1-p)/p)
H''(p) = −1/(p ln(2)) − 1/((1-p) ln(2)) = −1/(p(1-p) ln(2)) < 0 for all p ∈ (0,1)
İkincil türev her zaman simplexi içinde negatif: H, kesin olarak konveksdir.
Kapasite-İşlem Yıldızları Dağılımı
Kanal kapasitesi, giriş dağılımları p(x) üzerinde en yüksek bilgi entropisi olan mutual information ile tanımlanır:
C = max_{p(x)} I(X; Y)
nereye I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).
0.3'lük hata olasılığı olan ikili simetrik kanal için, kapasite-oluşturan giriş dağılımı eşit olan dağılım p(0) = p(1) = 0.5'dir.
Neden: H(Y) simetrik bir kanalda eşit olan çıkış dağılımı tarafından optimize edilir. Eşit bir giriş verirse, eşit bir çıkış elde edilir. Başka bir giriş dağılımı ile H(Y) küçültülür ve I(X;Y) azalır.
Geometrik olarak: bilgi entropisi I(X;Y) giriş dağılımı p(x) üzerindeki simgex üzerinde konservatif bir fonksiyondur. Konservatif ve simetrik bir kanalda, en yüksek bir fonksiyonda benzersiz bir nokta (merkez) elde edilir.
KL Bölenliği
The Kullback-Leibler divergence (relative entropy) from distribution q to distribution p:
D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)
D(p || q) ≥ 0 always (Gibbs' inequality). D(p || q) = 0 if and only if p = q.
D is not a true distance: it is asymmetric (D(p||q) ≠ D(q||p) in general) and does not satisfy the triangle inequality. But it acts as a measure of how 'far' p is from q in probability space.
KL divergence appears throughout information theory:
- Mutual information: I(X;Y) = D(p(x,y) || p(x)p(y)). The mutual information is the KL divergence between the joint distribution and the product of marginals — how far the joint is from independence.
- Gibbs' inequality: the noiseless coding theorem follows directly from D(p || q) ≥ 0.
- Channel capacity: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).
KL Bölenliği Hesaplama
Example: p = (0.5, 0.5) uniform binary, q = (0.8, 0.2) biased binary.
D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)
= 0.5 log₂(0.625) + 0.5 log₂(2.5)
≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 bits
Kanal Kapasitesi'nin Cebirsel Mesafesi
Kanal kapasitesi, olasılık dağıtımları uzayında bir cebirsel yorumlama sahiptir.
Bir kanal p(y|x) için, kapasite-gerçekleştiren giriş dağılımı p*(x) tanımlayın. Kapasite, aşağıdaki eşitliği karşılar:
C = D(p*(y) || r(y))
where p(y) = Σ p(x) p(y|x) girişin optimali altında olan çıkış dağılımıdır ve r(y) = argmin_r max_x D(p(y|x) || r(y)) minimum-bilgi çıkış dağılımıdır — tüm koşullu çıkış dağıtımlarını aynı anda KL divergence'de en yakın (en küçük) noktadır.
Bu, bilgi-geometrik bakış açısıdır: kanal kapasitesi, çıkış dağılımı uzayında tüm koşullu dağıtımları içerecek şekilde en küçük KL-divergence küreyin yarıçapıdır p(y|x=0) ve p(y|x=1).
BSC için: p(y|x=0) = (1−Q, Q) ve p(y|x=1) = (Q, 1−Q). Simetri nedeniyle, minimum-bilgi çıkış r(y) = (0.5, 0.5). Kapasite = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). Formül, geometrik sonuçları tekrar elde eder.
Kapasite KL Divergence'den
Geometrik formülü doğrulayın: C = D(p(y|x=0) || r(y)) için bir BSC ile Q = 0.1 ve r(y) = (0.5, 0.5).
p(y|x=0) = (0.9, 0.1) (0 gönder, 0 alırken 0.9, 1 alırken 0.1 ile).
D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)
= 0.9 log₂(1.8) + 0.1 log₂(0.2)
log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322
= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 bit
Kontrol: C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 bit ✓
Kasıt-Bozulma ve Sıkıştırmanın Sınırları
Kasıt-Bozulma teorisi bilgi teorisi'ni kayıp sıkıştırmaya genişletir. 'Kaynağı tam olarak temsil etmek için en az ne kadar bit gerekir?' diye soran bilgi teorisi, 'ortalama bozulma D'ye izin vererek, en az ne kadar bit per simbol R(D) gerekir?' diye sorar.
Kasıt-Bozulma fonksiyonu R(D) konveks ve azalan bir D'ye göre D: daha fazla bozulma toleransı daha düşük oranlar sağlar. D = 0 (kaybedersiz): R(0) = H(kaynağı). D arttıkça R(D) → 0.
Geometrik olarak: R(D) bir (oran, bozulma) planında bir eğri takip eder. Bu eğri üzerinde veya üzerinde olan her gerçek (R, D) çifti elde edilebilir, altındaki çiftler ise imkansızdır - herhangi bir bozulma seviyesinde daha az sıkıntıdan kaçınamazsınız.
Kasıt-Bozulma teoremi (Shannon, 1959): R > R(D) için, beklenen bozulma en fazla D olan kodlar mevcuttur. R < R(D) için: beklenen bozulma D'yi sağlayacak kod bulunamaz. Eğri, (oran, bozulma) uzaysında bir sınır ötesidir.