Skip to content

第2章:逆行列のジレンマと擬似逆行列 —— 正則化から最小ノルム解まで

前章では、線形モデルの誤差を最小化するパラメータを解析的に求める正規方程式を導出しました。しかし、パラメータ数とデータ数のバランスによっては「逆行列が存在しない(ランク落ち)」という致命的な問題が発生します。 本章では、この問題を解決する「正則化(Ridge回帰)」のアプローチから出発し、一般の長方行列における連立一次方程式の解法である「擬似逆行列」と「ラグランジュの未定乗数法」を用いた最小ノルム解の導出までを数理的に解き明かします。

1. ランク落ちの回避と正則化(Ridge回帰)

前章の議論を一般化し、データ数 、パラメータ数 の行列 、パラメータベクトル 、出力ベクトル を用いて、予測と誤差の式を と表します。 パラメータ数 がデータ数 より多い()場合、行列 はランク落ちを起こし、逆行列 を計算することができません。

この問題に対する数学的・実用的な解決策が正則化(Regularization)です。 誤差関数に、パラメータの大きさを表す L2ノルム()のペナルティ項を追加します。これをRidge(リッジ)回帰と呼びます。

は正則化の強さを決める定数)

この新しい目的関数を で偏微分して と置きます。

これを について解くと、次のような修正された正規方程式が得られます。

この (単位行列の定数倍)を足すという操作が極めて重要です。行列の対角成分に一律で を足し込むことで、固有値が底上げされ、完全に0になる固有値が消滅し、確実に逆行列を計算できるようになります。過学習を防ぎつつ、解を安定させる強力な手法です。


2. 連立方程式の形状と解の存在条件

前節の正則化を用いなくても、行列 の形状(データ数 とパラメータ数 の関係)に応じて、方程式 に対する適切なアプローチが存在します。大きく分けて以下の3つのケースに分類されます。

(条件過多:Overdetermined)

データ数がパラメータ数より多い場合。すべての方程式を完全に満たす解(直線が1点で交わる状態)は一般に存在しません。 したがって、前章で導出した「誤差の二乗和を最小にする解(最小二乗解)」を採用します。

(正方行列:Exact)

データ数とパラメータ数が等しく、連立方程式がただ一つの解を持つ理想的な状態です。通常の逆行列が存在します。

(条件不足:Underdetermined)

パラメータ数がデータ数より多い場合。制約が足りないため、方程式を満たす解が無数に存在します(交点が無数にある状態)。 この場合、「どの方程式も完全に満たしつつ、最もシンプルな(パラメータのノルムが最小の)解」を選ぶという方針をとります。


3. 条件不足()における最小ノルム解

方程式 を完全に満たす無数の解の中から、パラメータの大きさ が最小になるものを探す「条件付き最適化問題」を定式化します。

  • 目的関数
  • 制約条件 (すなわち

このように、制約条件の下で関数を最小化(または最大化)する際に用いられるのがラグランジュの未定乗数法です。 未定乗数ベクトル を導入し、次のようなラグランジュ関数 を定義します。

解は、この関数 で偏微分して になる点として求まります。

これにより、最適なパラメータ を用いて次のように表されることがわかります。

4. 未定乗数の消去と解の導出

求まった を、元の制約条件 に代入して を決定します。

ここで、行列 の正方行列であり、 の条件下でフルランクであれば逆行列 が存在します。両辺に左から を掛けて を求めます。

最後に、この に戻すことで、条件不足の状況下における最適なパラメータ (最小ノルム解)が導出されます。

5. ムーア・ペンローズの擬似逆行列(まとめ)

これまでの議論をまとめると、行列 が正方行列でなく通常の逆行列 が存在しない場合でも、方程式 の最適な解 を与える行列(擬似逆行列)を定義することができます。 行列 の形状によって、解法は美しく分岐します。

形状条件採用する解擬似逆行列による解
Overdetermined (条件過多)最小二乗解
Exact (正方行列)一意な解
Underdetermined (条件不足)最小ノルム解

このように、長方行列を扱う線形代数の知識を用いることで、機械学習における「パラメータとデータのバランス」に関する問題に対して、強力でエレガントな解析解を与えることができるのです。次章では、解析的に解くのが困難な場合に用いられる「勾配法による逐次最小化」の数理へと踏み込みます。

Released under the MIT License.