un — 情報理論の幾何学

un

ゲスト

1 / ?

レッスン一覧に戻る

確率単体

q個のシンボルに対する確率分布は、(q−1)次元単体の点です：すべてのベクトル (p₁, ..., p_q) の集合で、pᵢ ≥ 0 かつ Σ pᵢ = 1 を満たしています。

q = 2 の場合：単体は線分 [0,1] で、単一の確率 p でパラメータ化されます。q = 3 の場合：単体は ℝ² 内の正三角形です。各頂点は決定論的分布（すべての確率が1つのシンボルに集中）です。中心は一様分布です。

エントロピー H(p) は単体の各点に実数を割り当てます。関数の幾何学は多くの基本的な結果を決定します。

凹性

H は単体上で凹です：任意の2つの分布 p と q、および任意の λ ∈ [0,1] に対して：

H(λp + (1−λ)q) ≥ λH(p) + (1−λ)H(q)

2つの分布の混合は、個々のエントロピーの重み付き平均以上のエントロピーを持ちます。直感的には：2つの情報源を混合すると不確実性が増加します。

エントロピー曲線とチャネル容量

凹性の検証

二値エントロピー H(p) の場合、凹性はグラフに見えます：曲線は上向きに弓なりになり、2つの点を結ぶ弦の下に落ちることはありません。

凹性の形式的テスト：2階導関数 H''(p) ≤ 0 がどこでも成立します。

H(p) = −p log₂(p) − (1−p) log₂(1−p)

H'(p) = −log₂(p) − 1/ln(2) + log₂(1−p) + 1/ln(2) = log₂((1−p)/p)

H''(p) = −1/(p ln(2)) − 1/((1−p) ln(2)) = −1/(p(1−p) ln(2)) < 0 for all p ∈ (0,1)

2階導関数は内部のすべての場所で厳密に負です：H は厳密に凹です。

2階導関数テストを使用して H(p) が凹であることを検証してください。H'(p) = log₂((1−p)/p) から始めて、もう一度微分して H''(p) を得てください。微分ステップを示し、すべての p ∈ (0,1) に対して H''(p) < 0 であることを確認してください。厳密凹性は最大値の位置について何を示唆していますか？

容量達成分布

チャネル容量は、すべての入力分布 p(x) に対する相互情報量の最大値として定義されます：

C = max_{p(x)} I(X; Y)

ここで I(X; Y) = H(Y) − H(Y|X) = H(X) − H(X|Y) = H(X) + H(Y) − H(X,Y)。

エラー確率 Q の二値対称チャネルの場合：容量達成入力分布は一様分布 p(0) = p(1) = 0.5 です。

理由：H(Y) は一様出力分布によって最大化されます。BSC を使用して、一様入力は一様出力を与えます。他の入力分布は H(Y) を小さくし、I(X;Y) を減らします。

幾何学的に：相互情報量 I(X;Y) は単体上の入力分布 p(x) の凹関数です。凸集合上の凹関数の最大値は一意な点で達成されます（対称チャネルの場合、中心）。

相互情報量 I(X;Y) は p(x) に関して凹であり、チャネル p(y|x) に関して凸です。誤り確率 Q = 0.3 の二値対称チャネルについて、チャネル容量 C を計算してください。次に、対称チャネルに対して入力分布上の I(X;Y) の最大値が p(0) = p(1) = 0.5 で達成される理由を幾何学的に説明してください。

KLダイバージェンス

Kullback-Leibler ダイバージェンス（相対エントロピー）分布 q から分布 p へ：

D(p || q) = Σᵢ pᵢ log₂(pᵢ/qᵢ)

D(p || q) ≥ 0 は常に成立します（Gibbs の不等式）。D(p || q) = 0 当且つ只當 p = q の時です。

D は真の距離ではありません：それは非対称です（一般に D(p||q) ≠ D(q||p)）し、三角不等式を満たしません。しかし、確率空間で p が q から「どのくらい遠いか」の尺度として機能します。

KLダイバージェンスは情報理論全体に現れます：

- 相互情報量：I(X;Y) = D(p(x,y) || p(x)p(y))。相互情報量は結合分布と周辺分布の積のKLダイバージェンスです — 結合が独立性からどのくらい遠いかです。

- Gibbs の不等式：無損失符号化定理は D(p || q) ≥ 0 から直接従います。

- チャネル容量：C = max_{p(x)} I(X;Y) = max_{p(x)} D(p(x,y) || p(x)p(y))。

確率空間の幾何学

KLダイバージェンスの計算

例：p = (0.5, 0.5) 一様二値、q = (0.8, 0.2) バイアス二値。

D(p || q) = 0.5 log₂(0.5/0.8) + 0.5 log₂(0.5/0.2)

= 0.5 log₂(0.625) + 0.5 log₂(2.5)

≈ 0.5 × (−0.678) + 0.5 × 1.322 ≈ −0.339 + 0.661 ≈ 0.322 ビット

p = (0.5, 0.5) および q = (0.8, 0.2) に対して D(q || p) を計算してください。代入された値を含む式を表示してください。次に D(q||p) vs. D(p||q) ≈ 0.322 ビットを比較してください。それらは等しいですか？この非対称性は幾何学的に何を意味しますか — KLダイバージェンスが真の距離メトリックではない理由は何ですか？

幾何学的距離としてのチャネル容量

チャネル容量は、確率分布の空間における幾何学的解釈を持ちます。

チャネル p(y|x) に対して、容量達成入力分布 p*(x) を定義します。容量は以下を満たします：

C = D(p*(y) || r(y))

ここで p(y) = Σ p(x) p(y|x) は最適入力下の出力分布、および r(y) = argmin_r max_x D(p(y|x) || r(y)) は最小情報出力分布 — 出力確率空間の点で、すべての条件付き出力分布 p(y|x) に最も近い点（KLダイバージェンスで）です。

これは情報幾何学的見方です：チャネル容量は出力分布空間の KL-ダイバージェンス球の半径で、すべての条件付き分布 p(y|x=0) および p(y|x=1) を含む最小球です。

BSC の場合：p(y|x=0) = (1−Q, Q) および p(y|x=1) = (Q, 1−Q)。対称性により、最小情報出力 r(y) = (0.5, 0.5)。容量 = D((1−Q, Q) || (0.5, 0.5)) = 1 − H(Q)。式は幾何学から標準結果を回復します。

KLダイバージェンスからの容量

幾何学的式を検証：Q = 0.1、r(y) = (0.5, 0.5) の BSC に対して C = D(p(y|x=0) || r(y))。

p(y|x=0) = (0.9, 0.1) （0 を送信、確率 0.9 で 0 を受信、確率 0.1 で 1 を受信）。

D((0.9, 0.1) || (0.5, 0.5)) = 0.9 log₂(0.9/0.5) + 0.1 log₂(0.1/0.5)

= 0.9 log₂(1.8) + 0.1 log₂(0.2)

log₂(1.8) ≈ 0.848、log₂(0.2) ≈ −2.322

= 0.9×0.848 + 0.1×(−2.322) ≈ 0.763 − 0.232 ≈ 0.531 ビット

確認：C = 1 − H(0.1) ≈ 1 − 0.469 = 0.531 ビット ✓

Q = 0.2 の BSC に対して、p(y|x=0) = (0.8, 0.2) および r(y) = (0.5, 0.5) である D(p(y|x=0) || r(y)) を計算して幾何学的容量式を検証してください。log₂(1.6) ≈ 0.678 および log₂(0.4) ≈ −1.322 を使用してください。次に、結果が C = 1 − H(0.2) と一致することを確認してください。

レート歪み理論と圧縮の限界

レート歪み理論は情報理論を損失圧縮に拡張します。「ソースを正確に表現するための最小ビット数は何か」と尋ねる代わりに、次のように尋ねます：「いくらかの平均歪みに対する許容値 D が与えられたとき、最小レート R(D) ビット/シンボルは何か？」

レート歪み関数 R(D) は D に関して凸かつ減少です：より多くの歪み許容値はより低いレートを可能にします。D = 0（無損失）の場合：R(0) = H(ソース)。D が増加するにつれて、R(D) → 0。

幾何学的に：R(D) は (レート、歪み) 平面上の曲線をトレースします。すべての達成可能な (R, D) 対がこの曲線上またはその上にあります。曲線の下の点は不可能です — 任意の歪みレベルで基本的な限界を下回る圧縮はできません。

レート歪み定理（シャノン、1959）：任意の R > R(D) に対して、最大 D で予想される歪みを達成するコードが存在します。R < R(D) の場合：歪み D を達成するコードはありません。曲線は (レート、歪み) 空間の幾何学的フロンティアです。

レート歪み関数 R(D) は凸であり、減少しています。R(D) の凸性が、D = 0 に近づくにつれて歪みを減らすための限界コストについて何を示唆しているかを幾何学的用語で説明してください。次に、これを実際のエンジニアリング上のトレードオフに結びつけてください：損失圧縮フォーマット（JPEG、MP3）が D = 0 をはるかに上回って動作する理由は何ですか？