ElasticNet入門 — Ridge と Lasso のいいとこ取り | Qast ブログ

ElasticNet は、Ridge回帰の L2正則化と Lasso回帰の L1正則化を組み合わせたハイブリッド手法です。「重みを小さく抑える安定性」と「不要な重みをゼロにする特徴量選択」の両方の性質を持ち、Ridge と Lasso それぞれの弱点を補い合います。

L1 + L2 のダブル正則化

ElasticNet の損失関数には、L1ペナルティ（重みの絶対値の合計）と L2ペナルティ（重みの二乗の合計）の両方が含まれます。この2つのペナルティの配分を決めるのが「混合比率パラメータ」（l1_ratio）です。l1_ratio = 1 にすると完全な Lasso、l1_ratio = 0 にすると完全な Ridge となり、0〜1 の間の値でその中間の性質を持たせることができます。

相関の高い特徴量グループへの対応

Lasso回帰は、互いに強く相関する特徴量のグループがある場合、そのうちの1つだけを残して他をゼロにしてしまう傾向があります。例えば「身長」「座高」「腕の長さ」のように相関の高い3つの特徴量があると、Lasso はそのうち1つだけを選び、残りを無視します。ElasticNet は L2正則化の効果により、相関の高い特徴量をグループとしてまとめて選択する性質を持ちます。そのため、どの特徴量が選ばれるかがデータのわずかな変動に左右されにくく、より安定した結果が得られます。

どんなときに使うべきか

ElasticNet は、特徴量の数がデータ件数より多い場合や、多数の特徴量が互いに相関しているデータセットで特に有効です。Ridge と Lasso のどちらが適しているか事前に判断できない場合のデフォルト選択肢としても優れています。実務では、遺伝子データ解析やテキスト特徴量を使った予測など、高次元・高相関のデータに広く活用されています。

Qast では ElasticNet の正則化パラメータと混合比率を自動でチューニングします。特徴量の数が多いデータセットでは、ElasticNet が Ridge や Lasso よりも高い精度を示すことがあるため、リーダーボードでの比較をおすすめします。

ElasticNet入門 — Ridge と Lasso のいいとこ取り

L1 + L2 のダブル正則化

相関の高い特徴量グループへの対応

どんなときに使うべきか

関連記事

Qastが使う回帰アルゴリズム — 数値予測の手法をやさしく解説

Ridge回帰入門 — L2正則化で過学習を抑える

Lasso回帰入門 — L1正則化で特徴量を自動選択

Qast を導入してみませんか？