Appearance
シュレーディンガーブリッジの展開 —— KLのチェーンルールと情報処理不等式
前章では、初期分布から目標分布へと粒子を導く「シュレーディンガーブリッジ」が、経路全体のKL情報量を最小化する問題に帰着することを見ました。 本章では、時間方向に連なる「経路の確率」のKL情報量をどのように計算・分解するのかを示す「KLのチェーンルール」と、情報理論の要である「情報処理不等式」を導出します。さらに、それが物理学のマルコフ連鎖や統計力学(ギブス分布)とどのように結びつくのかを解き明かします。
1. 経路の確率とKLのチェーンルール
時刻 から までの状態の軌跡(経路)の同時確率を考えます。 ベースラインとなる自然なダイナミクス(事前分布) は、初期分布 と遷移確率 の積として以下のように書けます。
これに対し、最適化したい新しい経路の確率分布を (または )とします。 これら2つの経路全体の確率の比をとると、次のように条件付き確率の積へと分解(チェーンルール)することができます。
この比の対数をとり、分布 についての期待値をとることで、経路全体のKL情報量は次のように美しく分解されます。
この式は、「経路全体のKL情報量は、初期状態のKL情報量と、各時刻における遷移確率のKL情報量の期待値(和)に分解できる」という極めて重要な性質を示しています。
2. 凸関数とジェンセンの不等式
情報理論の不等式を導くための強力な武器が「関数の凸性」です。 関数 の2階微分が常に0以上()であるとき、その関数は「下に凸」であると言います。 下に凸な関数においては、値の平均をとったものに対する関数の値よりも、関数の値の平均をとったものの方が大きくなるという性質(ジェンセンの不等式)が成り立ちます。
KL情報量の定義には という関数が隠れています。この関数を微分すると 、2階微分は となり、厳密に下に凸な関数であることがわかります。
3. 情報処理不等式とマルコフ性
この凸性を利用して、周辺化(マージナルをとる)という操作を行うと、情報の差異(KL情報量)がどのように変化するかを評価できます。 情報を一部捨てる(周辺化する)と、2つの分布の区別は元よりも難しくなるため、KL情報量は必ず減少するか等しくなります。これを**情報処理不等式(Data Processing Inequality)**と呼びます。
この性質を経路のKL情報量に適用します。 新しい遷移確率 が、過去の全履歴に依存しているとします。しかし、情報処理不等式を用いると、直前の状態 だけに依存するマルコフな遷移確率 に情報を削ぎ落とした方が、ベースラインのマルコフ遷移 に対するKL情報量を小さく抑えられることが証明されます。
ゆえに、「相手(ベースライン)がマルコフ過程であれば、それを最適に近似・制御するシュレーディンガーブリッジの解もまたマルコフ過程になる」という極めて強力な結論が導かれます。
4. マルコフ連鎖と詳細づりあい条件
具体的なマルコフ連鎖のダイナミクスは、次のような遷移確率の足し合わせで記述されます。
時間が十分に経過し、分布が変化しなくなった定常状態 においては、次の**つりあい条件(Balance Condition: BC)**が成立します。
さらに、物理学的に「平衡系」と呼ばれる自然なシステムでは、これよりも強い**詳細づりあい条件(Detailed Balance Condition: DBC)**が成立します。
詳細づりあい条件(DBC)が成立していれば、両辺を について足し合わせる( を用いる)だけで、自動的につりあい条件(BC)が満たされることが数学的に示されます。
5. 統計力学との繋がり —— ギブス分布
この定常分布 の最も代表的な例が、統計力学に登場するギブス・ボルツマン分布です。
ここで は逆温度、 は系のエネルギーを表し、 は確率の和を1にするための規格化定数(分配関数)です。 分配関数 は、系のマクロな性質を決定づける(ヘルムホルツの)自由エネルギー と対数を通じて直結しています。
このように、機械学習や最適輸送における確率モデルの最適化(KL情報量最小化)は、物理学における「エネルギーを最小化しつつエントロピーを最大化する(自由エネルギー最小化)」という熱力学の基本原理と完全に同じ数理構造を持っているのです。