Appearance
第0章:データからモデルを学習する —— KL情報量と最尤法
機械学習の究極の目的は、手元にある限られた「データ」から、その背後にある「真のルール(確率分布)」を見つけ出すことにあります。 本章では、データ分布とモデル分布の距離を測る「KL情報量」を出発点として、機械学習の根幹をなす「最尤法(Maximum Likelihood Estimation)」の数理を導出します。
1. データ分布とモデル分布
手元に 個のデータポイント があるとします。 これらが「どこにどれくらい存在するか」を表す真のデータ分布(経験分布)を とします。これはディラックのデルタ関数 を用いて次のように書けます。
一方で、私たちが構築する機械学習モデルの予測確率分布を とします。 はモデルのパラメータです。 例えば、指数関数を用いたモデルであれば、以下のように表されます。
私たちの目標は、パラメータ を調整して、モデル分布 をデータ分布 にできるだけ近づけることです。
2. KL情報量(カルバック・ライブラー情報量)
2つの確率分布 と が「どれくらい似ているか(距離)」を測る指標として、KL情報量 を導入します。定義は以下の通りです。
KL情報量には以下の重要な性質があります。
- 常に0以上をとる:
- 完全に一致した時のみ0になる:
- 非対称である(距離の公理は満たさない):
3. KL情報量から「最尤法」の導出
データ分布 とモデル分布 のKL情報量を最小化するようなパラメータ を探します。 式を展開すると以下のようになります。
ここで、第1項()はデータのみに依存し、モデルのパラメータ には依存しません。したがって、全体を最小化することは、第2項を最大化することと同値になります。
この第2項に、データ分布 を代入し、デルタ関数の性質()を使います。
これが、機械学習において最も有名な学習原理である**「最尤法」**です。KL情報量の最小化は、各データポイントにおける対数尤度の平均を最大化することと完全に一致するのです。
4. パラメータの最適化(勾配法)
最適化すべき目的関数 が求まったら、次はその関数を最小化(または最大化)する を探すステップに入ります。 ここで用いられるのが**勾配法(Gradient Descent)**です。
( は学習率・ステップ幅) この更新則を繰り返すことで、パラメータ は最適な値へと近づいていきます。