Skip to content

第4章:スパース性の数理 —— LASSO回帰と近接写像

前章までで、滑らかな微分可能関数に対する勾配法を学びました。また第2章では、パラメータの過学習を防ぎ、逆行列を安定して求めるために L2ノルムを用いた「Ridge回帰」を紹介しました。 本章では、ペナルティ項として L1ノルムを用いる「LASSO回帰」を取り上げます。LASSOは不要なパラメータを完全に にするという強力な性質(スパース性)を持ちますが、絶対値を含むため原点で微分できないという厄介な問題が生じます。この壁を乗り越える「近接勾配法(ISTA)」と「軟判定しきい値関数」の数理を解き明かします。

1. L1正則化とLASSO回帰

パラメータ の各成分の絶対値の和を L1ノルムと呼びます。

誤差関数に対して、この L1ノルムをペナルティ項として加えたものを LASSO回帰 と呼びます。目的関数は以下のようになります。

L2ノルムを用いたRidge回帰では、偏微分して と置くことで正規方程式を修正できましたが、LASSOの場合は に含まれる絶対値のせいで の点で微分が定義できません。単純な勾配法や解析的な計算が通用しないのです。

2. 代理関数による分離性(Separability)

そこで、第3章で学んだ「代理関数(Surrogate Function)」の考え方を応用します。 L1正則化項以外の滑らかな誤差関数部分 に対して、リプシッツ連続に基づく上界を考えます。現在のパラメータを 、学習率(ステップ幅)を とすると、次のような不等式が成り立ちます。

この右辺を平方完成し、勾配法による仮の更新先を と置くと、目的関数全体を最小化する問題は、次のように極めてシンプルな形に帰着します。

ここで注目すべきは 「分離性」 です。この式はベクトル全体で考える必要はなく、各成分 ごとの足し算に完全に分解できるのです。

これにより、多変数の複雑な最適化問題が、単純な「スカラー(1変数)の最適化問題」へと劇的に簡単になります。

3. スカラー問題への帰着と絶対値の処理

成分ごとのスカラー問題(ここでは簡単のため とし、係数を吸収した形で考えます)を解きます。

絶対値 を外すため、3つのケースに分けて考えます。

の場合:

これを平方完成すると となり、最小値をとるのは のときです。ただし、前提として なので、これは の時に成立します。

の場合:

平方完成すると となり、最小値をとるのは のときです。前提が なので、これは の時に成立します。

の場合:

上記2つの条件から漏れた、原点付近の領域です。このとき、関数を最小にするのは の点になります。

4. 軟判定しきい値関数(Soft Thresholding)

前節の結果をまとめると、仮の更新値 から最適な を求める操作は、以下のようなひとつの関数 として定義できます。これを 軟判定しきい値関数(Soft Thresholding Operator) と呼びます。

この関数の最大の特徴は、勾配法で計算した仮の更新値 の範囲に入った場合、問答無用でパラメータ を「 につぶす」 点にあります。これが、LASSO回帰が不要なパラメータを完全に削ぎ落とし、「スパース(疎)」なモデルを作り出す数理的なメカニズムです。

5. 近接勾配法(ISTA)と近接写像

ここまでのプロセスをアルゴリズムとしてまとめると、以下の2ステップの繰り返しになります。

  1. 勾配ステップ: 滑らかな誤差関数部分だけで勾配を下り、仮の地点 を求める。
  2. 近接ステップ: 仮の地点 の各成分に対して軟判定しきい値関数を通し、ゼロにつぶす処理を行う。

この手法を ISTA(Iterative Shrinkage-Thresholding Algorithm) と呼びます。

より一般に、微分不可能なペナルティ項 がある場合、第2ステップで行う「現在地 から大きく離れないようにしつつ、ペナルティ を小さくする」操作を 近接写像(Proximal Mapping) と呼びます。

LASSO回帰における軟判定しきい値関数は、ペナルティ関数が L1ノルム()である場合の近接写像の具体的な姿に他なりません。近接写像という概念を用いることで、L1ノルムに限らず、多様な制約を持つ最適化問題へと拡張していくことが可能になります。

Released under the MIT License.