Lasso回帰(Least Absolute Shrinkage and Selection Operator)は、線形回帰に「L1正則化」を加えた手法です。Ridge回帰と同じく過学習を防ぐ効果がありますが、最大の特徴は不要な特徴量の重みを完全にゼロにできることです。これにより、自動的に重要な特徴量だけを選び出す「特徴量選択」の効果が得られます。
L1正則化の仕組み — 重みをゼロにする力
Lasso回帰では、損失関数に「すべての重みの絶対値の合計」をペナルティとして加えます。L2正則化(Ridge)が重みの二乗和を使うのに対し、L1正則化は絶対値の和を使います。数学的な性質の違いにより、L1正則化ではペナルティを強くすると一部の重みが完全にゼロになります。つまり、その特徴量はモデルから除外され、予測に使われなくなります。
自動特徴量選択のメリット
特徴量の数が非常に多いデータセット(例えば数百〜数千のカラムがある場合)では、どの特徴量が本当に重要なのかを人手で判断するのは困難です。Lasso回帰は学習過程で自動的に不要な特徴量を排除してくれるため、「どの変数が予測に寄与しているのか」を明確にできます。結果として得られるモデルは、少数の重要な特徴量だけで構成されるスパース(疎)なモデルとなり、解釈性が大幅に向上します。
Ridge回帰との使い分け
Ridge回帰はすべての特徴量を少しずつ使いますが、Lasso回帰は重要な特徴量だけを残します。多くの特徴量が予測に寄与しているデータには Ridge、少数の特徴量だけが本質的に重要なデータには Lasso が向いています。どちらが適しているか事前にわからない場合は、両方の性質を兼ね備えた ElasticNet も選択肢となります。
Qast のリーダーボードで Lasso回帰が上位に入った場合、そのモデルの特徴量重要度を確認してみましょう。重みがゼロでない特徴量が、そのデータセットで本当に重要な変数であることがわかります。

