Appearance
第2章:逆行列のジレンマと擬似逆行列 —— 正則化から最小ノルム解まで
前章では、線形モデルの誤差を最小化するパラメータを解析的に求める正規方程式を導出しました。しかし、パラメータ数とデータ数のバランスによっては「逆行列が存在しない(ランク落ち)」という致命的な問題が発生します。 本章では、この問題を解決する「正則化(Ridge回帰)」のアプローチから出発し、一般の長方行列における連立一次方程式の解法である「擬似逆行列」と「ラグランジュの未定乗数法」を用いた最小ノルム解の導出までを数理的に解き明かします。
1. ランク落ちの回避と正則化(Ridge回帰)
前章の議論を一般化し、データ数 、パラメータ数 の行列 、パラメータベクトル 、出力ベクトル を用いて、予測と誤差の式を と表します。 パラメータ数 がデータ数 より多い()場合、行列 はランク落ちを起こし、逆行列 を計算することができません。
この問題に対する数学的・実用的な解決策が正則化(Regularization)です。 誤差関数に、パラメータの大きさを表す L2ノルム()のペナルティ項を追加します。これをRidge(リッジ)回帰と呼びます。
( は正則化の強さを決める定数)
この新しい目的関数を で偏微分して と置きます。
これを について解くと、次のような修正された正規方程式が得られます。
この (単位行列の定数倍)を足すという操作が極めて重要です。行列の対角成分に一律で を足し込むことで、固有値が底上げされ、完全に0になる固有値が消滅し、確実に逆行列を計算できるようになります。過学習を防ぎつつ、解を安定させる強力な手法です。
2. 連立方程式の形状と解の存在条件
前節の正則化を用いなくても、行列 の形状(データ数 とパラメータ数 の関係)に応じて、方程式 に対する適切なアプローチが存在します。大きく分けて以下の3つのケースに分類されます。
① (条件過多:Overdetermined)
データ数がパラメータ数より多い場合。すべての方程式を完全に満たす解(直線が1点で交わる状態)は一般に存在しません。 したがって、前章で導出した「誤差の二乗和を最小にする解(最小二乗解)」を採用します。
② (正方行列:Exact)
データ数とパラメータ数が等しく、連立方程式がただ一つの解を持つ理想的な状態です。通常の逆行列が存在します。
③ (条件不足:Underdetermined)
パラメータ数がデータ数より多い場合。制約が足りないため、方程式を満たす解が無数に存在します(交点が無数にある状態)。 この場合、「どの方程式も完全に満たしつつ、最もシンプルな(パラメータのノルムが最小の)解」を選ぶという方針をとります。
3. 条件不足()における最小ノルム解
方程式 を完全に満たす無数の解の中から、パラメータの大きさ が最小になるものを探す「条件付き最適化問題」を定式化します。
- 目的関数:
- 制約条件: (すなわち )
このように、制約条件の下で関数を最小化(または最大化)する際に用いられるのがラグランジュの未定乗数法です。 未定乗数ベクトル を導入し、次のようなラグランジュ関数 を定義します。
解は、この関数 を で偏微分して になる点として求まります。
これにより、最適なパラメータ は を用いて次のように表されることがわかります。
4. 未定乗数の消去と解の導出
求まった を、元の制約条件 に代入して を決定します。
ここで、行列 は の正方行列であり、 の条件下でフルランクであれば逆行列 が存在します。両辺に左から を掛けて を求めます。
最後に、この を に戻すことで、条件不足の状況下における最適なパラメータ (最小ノルム解)が導出されます。
5. ムーア・ペンローズの擬似逆行列(まとめ)
これまでの議論をまとめると、行列 が正方行列でなく通常の逆行列 が存在しない場合でも、方程式 の最適な解 を与える行列(擬似逆行列)を定義することができます。 行列 の形状によって、解法は美しく分岐します。
| 形状 | 条件 | 採用する解 | 擬似逆行列による解 |
|---|---|---|---|
| Overdetermined (条件過多) | 最小二乗解 | ||
| Exact (正方行列) | 一意な解 | ||
| Underdetermined (条件不足) | 最小ノルム解 |
このように、長方行列を扱う線形代数の知識を用いることで、機械学習における「パラメータとデータのバランス」に関する問題に対して、強力でエレガントな解析解を与えることができるのです。次章では、解析的に解くのが困難な場合に用いられる「勾配法による逐次最小化」の数理へと踏み込みます。