un — Bilgi Teorisi Cebriği

un

guest

1 / ?

back to lessons

Olasılık Simplexi

q sembol üzerinde bir olasılık dağılımı, (q-1) boyutlu simplexi'nde bir nokta: p₁, ..., p_q vektörleri için pᵢ ≥ 0 ve Σ pᵢ = 1 olan tüm vektörlerin kümesidir.

q = 2 için: simplexi bir doğru segmenti [0,1], tek bir olasılık p tarafından parametrelendirilir. q = 3 için: simplexi ℝ² içinde eşkenar bir üçgendir. Her bir köşe, bir sembol üzerinde tüm olasılığı olan deterministik bir dağılımdır; merkez, eşit dağılımı temsil eder.

Entropy H(p) her simplexi noktasına bir gerçek sayı atar. Fonksiyonun geometrisi birçok temel sonucu belirler.

Konveksite

H, simplexi üzerinde konvekstir: herhangi iki dağılım p ve q ve herhangi λ ∈ [0,1] için:

H(λp + (1-λ)q) ≥ λH(p) + (1-λ)H(q)

İkisi de iki dağılımın karmaşık oluşturulması, bireysel entropileri arasındaki ağırlıklı ortalamadan en az büyük entropiye sahiptir. Mantık: iki kaynağın birleşimi belirsizliği artırır.

Entropy Curve & Channel Capacity

Konveksitenin Doğrulanması

İki sembol entropisi H(p) için konveksite, grafikte görülebilir: eğri yukarı doğru kıvrılır, iki nokta arasında herhangi bir çizgi bağlayan hiçbir zaman altında düşmez.

Formel test için konveksite: ikincil türev H''(p) ≤ 0 her yerde.

H(p) = −p log₂(p) − (1-p) log₂(1-p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1-p) + 1/ln(2) = log₂((1-p)/p)

H''(p) = −1/(p ln(2)) − 1/((1-p) ln(2)) = −1/(p(1-p) ln(2)) < 0 for all p ∈ (0,1)

İkincil türev her zaman simplexi içinde negatif: H, kesin olarak konveksdir.

İkincil türev testi kullanarak H(p) nin konveks olduğunu doğrulayın. Başlangıçta H'(p) = log₂((1-p)/p) dan bir kez daha farklılaştırarak H''(p) 'yi elde edin. Türevlendirme adımlarını gösterin ve H''(p) < 0 'u tüm p ∈ (0,1) için doğrulayın. Strict concavity, maksimumun yerini hakkında ne ifade eder?

Kapasite-İşlem Yıldızları Dağılımı

Kanal kapasitesi, giriş dağılımları p(x) üzerinde en yüksek bilgi entropisi olan mutual information ile tanımlanır:

C = max_{p(x)} I(X; Y)

nereye I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y).

0.3'lük hata olasılığı olan ikili simetrik kanal için, kapasite-oluşturan giriş dağılımı eşit olan dağılım p(0) = p(1) = 0.5'dir.

Neden: H(Y) simetrik bir kanalda eşit olan çıkış dağılımı tarafından optimize edilir. Eşit bir giriş verirse, eşit bir çıkış elde edilir. Başka bir giriş dağılımı ile H(Y) küçültülür ve I(X;Y) azalır.

Geometrik olarak: bilgi entropisi I(X;Y) giriş dağılımı p(x) üzerindeki simgex üzerinde konservatif bir fonksiyondur. Konservatif ve simetrik bir kanalda, en yüksek bir fonksiyonda benzersiz bir nokta (merkez) elde edilir.

Araştırmacı Bilgi I(X;Y) Q = 0.3 olan bir ikili simetrik kanalda p(x) ve kanal p(y|x) için konservatif ve eğimli olup olmadığıdır. Giriş dağılımı üzerinde en yüksek bilgi entropisi I(X;Y) için maksimum olan kanal kapasitesi C'yi hesaplayın ve simetrik bir kanalda maksimum bilgi entropisi I(X;Y) için giriş dağılımı p(0) = p(1) = 0.5 olarak elde ediliyor nedenlerini geometrik olarak açıklayın.

KL Bölenliği

The Kullback-Leibler divergence (relative entropy) from distribution q to distribution p:

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0 always (Gibbs' inequality). D(p || q) = 0 if and only if p = q.

D is not a true distance: it is asymmetric (D(p||q) ≠ D(q||p) in general) and does not satisfy the triangle inequality. But it acts as a measure of how 'far' p is from q in probability space.

KL divergence appears throughout information theory:

- Mutual information: I(X;Y) = D(p(x,y) || p(x)p(y)). The mutual information is the KL divergence between the joint distribution and the product of marginals — how far the joint is from independence.

- Gibbs' inequality: the noiseless coding theorem follows directly from D(p || q) ≥ 0.

- Channel capacity: C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y)).

Geometry in Probability Space

KL Bölenliği Hesaplama

Example: p = (0.5, 0.5) uniform binary, q = (0.8, 0.2) biased binary.

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 bits

Compute D(q || p) for p = (0.5, 0.5) and q = (0.8, 0.2). Show the formula with substituted values. Then compare D(q||p) vs. D(p||q) ≈ 0.322 bits. Are they equal? What does this asymmetry mean geometrically — why is KL divergence not a true distance metric?

Kanal Kapasitesi'nin Cebirsel Mesafesi

Kanal kapasitesi, olasılık dağıtımları uzayında bir cebirsel yorumlama sahiptir.

Bir kanal p(y|x) için, kapasite-gerçekleştiren giriş dağılımı p*(x) tanımlayın. Kapasite, aşağıdaki eşitliği karşılar:

C = D(p*(y) || r(y))

where p(y) = Σ p(x) p(y|x) girişin optimali altında olan çıkış dağılımıdır ve r(y) = argmin_r max_x D(p(y|x) || r(y)) minimum-bilgi çıkış dağılımıdır — tüm koşullu çıkış dağıtımlarını aynı anda KL divergence'de en yakın (en küçük) noktadır.

Bu, bilgi-geometrik bakış açısıdır: kanal kapasitesi, çıkış dağılımı uzayında tüm koşullu dağıtımları içerecek şekilde en küçük KL-divergence küreyin yarıçapıdır p(y|x=0) ve p(y|x=1).

BSC için: p(y|x=0) = (1−Q, Q) ve p(y|x=1) = (Q, 1−Q). Simetri nedeniyle, minimum-bilgi çıkış r(y) = (0.5, 0.5). Kapasite = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q). Formül, geometrik sonuçları tekrar elde eder.

Kapasite KL Divergence'den

Geometrik formülü doğrulayın: C = D(p(y|x=0) || r(y)) için bir BSC ile Q = 0.1 ve r(y) = (0.5, 0.5).

p(y|x=0) = (0.9, 0.1) (0 gönder, 0 alırken 0.9, 1 alırken 0.1 ile).

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848, log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 bit

Kontrol: C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 bit ✓

Q = 0.2 olan bir BSC için, p(y|x=0) = (0.8, 0.2) ve r(y) = (0.5, 0.5) olan geometrik kapasite formülünü doğrulamak için D(p(y|x=0) || r(y)) hesaplayın. log₂(1.6) ≈ 0.678 ve log₂(0.4) ≈ −1.322 kullanın. Ardından, sonuç C = 1 − H(0.2) ile eşleştiğinden emin olun.

Kasıt-Bozulma ve Sıkıştırmanın Sınırları

Kasıt-Bozulma teorisi bilgi teorisi'ni kayıp sıkıştırmaya genişletir. 'Kaynağı tam olarak temsil etmek için en az ne kadar bit gerekir?' diye soran bilgi teorisi, 'ortalama bozulma D'ye izin vererek, en az ne kadar bit per simbol R(D) gerekir?' diye sorar.

Kasıt-Bozulma fonksiyonu R(D) konveks ve azalan bir D'ye göre D: daha fazla bozulma toleransı daha düşük oranlar sağlar. D = 0 (kaybedersiz): R(0) = H(kaynağı). D arttıkça R(D) → 0.

Geometrik olarak: R(D) bir (oran, bozulma) planında bir eğri takip eder. Bu eğri üzerinde veya üzerinde olan her gerçek (R, D) çifti elde edilebilir, altındaki çiftler ise imkansızdır - herhangi bir bozulma seviyesinde daha az sıkıntıdan kaçınamazsınız.

Kasıt-Bozulma teoremi (Shannon, 1959): R > R(D) için, beklenen bozulma en fazla D olan kodlar mevcuttur. R < R(D) için: beklenen bozulma D'yi sağlayacak kod bulunamaz. Eğri, (oran, bozulma) uzaysında bir sınır ötesidir.

Kasıt-Bozulma fonksiyonu R(D) konveks ve azalan bir fonksiyondur. R(D)ın konveksliğini geometrik terimlerle ifade ederek, D = 0'a doğru yaklaşırken bozulma maliyetinin marjinal maliyeti hakkında ne anlamız gerektiğini açıklayın. Ardından, JPEG, MP3 gibi kayıp sıkıştırma formatlarının neden D = 0'a oldukça uzak bir yerde çalıştığını mühendislik açısından bir pratik trade-off ile bağlantılı hale getirin.