Skip to content

第11章:不確実性のモデリング —— ガウス過程とベイズ最適化

前章で学んだカーネル法により、私たちは無限次元の特徴空間を扱う力を手に入れました。本章では、この考え方を確率論と結びつけ、予測の「(不確実性(バラつき))」までもモデリングする「(ガウス過程)」を導出します。 さらに、この不確実性を利用して未知の関数を効率的に探索する「(ベイズ最適化(獲得関数))」の数理、そして理論物理学の強力なツールである「(ハバード・ストラトノヴィッチ変換)」を用いて、行列の更新公式を積分の魔法で導き出すエレガントな展開を解き明かします。

1. Ridge回帰からガウス過程へ

線形モデル において、重みベクトル にL2正則化(Ridge回帰)をかけることは、ベイズ推定の観点からは、重み が次のガウス分布(正規分布)を事前分布として持つことと等価です。

データ点 に対する出力を とすると、重み がガウス分布に従うため、その線形結合である出力ベクトル もまた多次元ガウス分布に従います。 このときの共分散を計算すると、前章で学んだカーネル関数が自然に現れます。

つまり、すべての観測値 は、カーネル行列 を共分散行列とする巨大な多次元ガウス分布から生成されたとみなすことができます。

このように、任意の点における関数の値が結合的にガウス分布に従うような確率モデルを「(ガウス過程(Gaussian Process))」と呼びます。

2. 条件付き確率による予測

過去のデータ が与えられたときに、未知の新しい点での値 を予測するには、条件付き確率 を計算します。 全体がガウス分布であるため、カーネル行列をブロック行列として分割します。

ここで指数関数の肩に乗っている二次形式を展開し、平方完成を丁寧に行うと、 もまたガウス分布に従うことがわかります。そのときの「(平均 )」と「(分散 )」は次のように求まります。

平均の式は前章のカーネル回帰の予測と完全に一致し、さらに分散の式から「(その予測がどれくらい確からしいか)」という不確実性までも定量的に計算できるようになるのです。

3. ベイズ最適化と獲得関数(EIの解析的導出)

ブラックボックス最適化において、次にどの点を調べるべきかを決定する関数を「(獲得関数)」と呼びます。 現在までの最小値を とし、新しい点での予測値 がガウス分布 に従うとき、どれだけ値が小さく(改善)なりそうかの「(期待改善度(Expected Improvement: EI))」を計算します。改善量は で表されます。

この積分を解くために、変数変換 と、標準正規分布の累積分布関数 を導入します。積分を分割して計算を進めると、次のような美しい解析解が得られます。

第1項は「予測平均が現在より良いこと(開発)」を促し、第2項は「不確実性が大きい場所を調べること(探索)」を促します。この数式により、探索と開発の完璧なトレードオフが実現されます。

4. ハバード・ストラトノヴィッチ変換

ここで、多次元ガウス分布の積分計算において極めて強力な物理学のツール「(ハバード・ストラトノヴィッチ変換)」を導入します。 これは、変数同士の積(二次の項)を、補助変数を用いた一次の項(線形)のガウス積分に置き換える(またはその逆の)魔法のような変換です。

この関係式を用いることで、複雑に絡み合った指数関数の中身を、独立した積分に分解して計算することが可能になります。

5. シャーマン・モリソンの公式の積分配釈

機械学習において、データが1つ追加されたときに逆行列を効率的に更新するための「(シャーマン・モリソンの公式)」があります。

この代数的な公式を、先ほどのハバード・ストラトノヴィッチ変換を用いた「(積分の視点)」から導出してみましょう。 左辺の逆行列を持つガウス分布は、次のようなフーリエ積分として表現できます。

指数部の と書けます。ここに新たな補助変数 のガウス積分(ハバード・ストラトノヴィッチ変換)を強引に挿入します。

の積分順序を入れ替え、まず についてのガウス積分を実行し、次に残った についての平方完成とガウス積分を実行して元の形に戻します。すると、指数の肩に見事に という項が自然に現れます。

複雑な行列演算の公式が、補助変数を導入して「(空間の次元を一時的に増やし、積分してまた潰す)」という物理的な経路積分のアプローチによって鮮やかに導出されるのです。これはデータ科学の数理が、理論物理学の構造と深く結びついていることを示す最高の例の一つです。

Released under the MIT License.