Ridge回帰入門 — L2正則化で過学習を抑える | Qast ブログ

Ridge回帰は、通常の線形回帰に「L2正則化」と呼ばれるペナルティを加えた手法です。特徴量が多い場合や、特徴量同士の相関が高い場合（多重共線性）に、モデルが学習データに過剰にフィットしてしまう問題を効果的に抑制します。

L2正則化の仕組み — すべての重みを小さく抑える

通常の線形回帰は、予測誤差（残差の二乗和）だけを最小化するように重みを学習します。Ridge回帰では、この誤差に加えて「すべての重みの二乗和」をペナルティとして損失関数に追加します。つまり、予測精度を高めながらも、各重みが大きくなりすぎないように制約をかけるのです。ペナルティの強さはハイパーパラメータ α（アルファ）で制御し、α が大きいほど重みは強く抑制されます。

多重共線性への対処

多重共線性とは、複数の特徴量が互いに強く相関している状態のことです。例えば「部屋の広さ」と「部屋数」は強く相関します。このような場合、通常の線形回帰では重みが不安定になり、わずかなデータの変動で予測結果が大きく揺れてしまいます。Ridge回帰は全ての重みを均等に縮小するため、相関の高い特徴量があっても安定した予測が可能です。

通常の線形回帰との違い

通常の線形回帰は制約なしで最も誤差が小さくなる重みを求めますが、Ridge回帰は「重みを小さく保つ」という制約を加えます。その結果、学習データへのフィットは若干下がりますが、未知のデータに対する汎化性能（予測精度）が向上します。ただし、Ridge回帰はすべての特徴量の重みをゼロに近づけるだけで、完全にゼロにはしません。そのため、不要な特徴量を自動で除外したい場合は Lasso回帰が適しています。

Qast では Ridge回帰のハイパーパラメータ α を自動でチューニングします。特徴量の数がデータ件数に比べて多い場合や、相関の高い特徴量が含まれる場合に、Ridge回帰がリーダーボード上位に入ることが多くなります。

Ridge回帰入門 — L2正則化で過学習を抑える

L2正則化の仕組み — すべての重みを小さく抑える

多重共線性への対処

通常の線形回帰との違い

関連記事

Qastが使う回帰アルゴリズム — 数値予測の手法をやさしく解説

線形回帰入門 — すべての予測モデルの出発点

Lasso回帰入門 — L1正則化で特徴量を自動選択

Qast を導入してみませんか？