第0章：データからモデルを学習する —— KL情報量と最尤法

機械学習の究極の目的は、手元にある限られた「データ」から、その背後にある「真のルール（確率分布）」を見つけ出すことにあります。本章では、データ分布とモデル分布の距離を測る「KL情報量」を出発点として、機械学習の根幹をなす「最尤法（Maximum Likelihood Estimation）」の数理を導出します。

1. データ分布とモデル分布

手元に個のデータポイントがあるとします。これらが「どこにどれくらい存在するか」を表す真のデータ分布（経験分布）をとします。これはディラックのデルタ関数を用いて次のように書けます。

一方で、私たちが構築する機械学習モデルの予測確率分布をとします。はモデルのパラメータです。例えば、指数関数を用いたモデルであれば、以下のように表されます。

私たちの目標は、パラメータを調整して、モデル分布をデータ分布にできるだけ近づけることです。

2. KL情報量（カルバック・ライブラー情報量）

2つの確率分布とが「どれくらい似ているか（距離）」を測る指標として、KL情報量 を導入します。定義は以下の通りです。

KL情報量には以下の重要な性質があります。

常に0以上をとる：
完全に一致した時のみ0になる：
非対称である（距離の公理は満たさない）：

3. KL情報量から「最尤法」の導出

データ分布とモデル分布のKL情報量を最小化するようなパラメータを探します。式を展開すると以下のようになります。

ここで、第1項（）はデータのみに依存し、モデルのパラメータには依存しません。したがって、全体を最小化することは、第2項を最大化することと同値になります。

この第2項に、データ分布を代入し、デルタ関数の性質（）を使います。

これが、機械学習において最も有名な学習原理である**「最尤法」**です。KL情報量の最小化は、各データポイントにおける対数尤度の平均を最大化することと完全に一致するのです。

4. パラメータの最適化（勾配法）

最適化すべき目的関数が求まったら、次はその関数を最小化（または最大化）するを探すステップに入ります。ここで用いられるのが**勾配法（Gradient Descent）**です。

（は学習率・ステップ幅）この更新則を繰り返すことで、パラメータは最適な値へと近づいていきます。

第0章：データからモデルを学習する —— KL情報量と最尤法 ​

1. データ分布とモデル分布 ​

2. KL情報量（カルバック・ライブラー情報量） ​

3. KL情報量から「最尤法」の導出 ​

4. パラメータの最適化（勾配法） ​

第0章：データからモデルを学習する —— KL情報量と最尤法

1. データ分布とモデル分布

2. KL情報量（カルバック・ライブラー情報量）

3. KL情報量から「最尤法」の導出

4. パラメータの最適化（勾配法）