CatBoost入門 — カテゴリ変数に強い前処理いらずのブースティング | Qast ブログ

CatBoost（Categorical Boosting）は、Yandex が開発した勾配ブースティングの実装です。その名前が示す通り、カテゴリ変数（性別、都道府県、商品カテゴリなど）の処理に特化した設計が最大の特徴です。他のブースティング手法では事前にカテゴリ変数を数値に変換する前処理が必要ですが、CatBoost はそれを自動で行います。

カテゴリ変数の自動処理 — 前処理の手間を削減

CatBoost は「Ordered Target Statistics」という独自の手法でカテゴリ変数を数値化します。単純に平均値に置き換えるのではなく、データの順番を考慮しながら統計量を計算するため、データリーケージ（本来知りえない情報の漏洩）を防ぎつつ高品質なエンコーディングを実現します。都道府県コードや商品IDのような高カーディナリティ（値の種類が多い）なカテゴリ変数でも問題なく処理できます。

Ordered Boosting — 過学習をさらに抑える

CatBoost のもう一つの特徴が「Ordered Boosting」です。通常のブースティングでは、残差の計算に同じデータを使うため、わずかな情報漏洩が発生する可能性があります。Ordered Boosting はデータの順番をランダムに並べ替え、各データポイントの残差を「それより前のデータだけ」で計算するため、過学習をさらに抑制します。

Qast ではカテゴリ変数の前処理を自動で行いますが、CatBoost は独自のエンコーディングを内部で処理するため、他の手法とは異なるアプローチでカテゴリ変数を活用します。前処理をなるべく減らしたい場合や、カテゴリ変数が多いデータでは CatBoost が特に効果的です。

CatBoost入門 — カテゴリ変数に強い前処理いらずのブースティング

カテゴリ変数の自動処理 — 前処理の手間を削減

Ordered Boosting — 過学習をさらに抑える

関連記事

Qastが使う分類アルゴリズム — 手法の特徴と選び方ガイド

XGBoost入門 — Kaggle上位の常連、勾配ブースティングの代表格

LightGBM入門 — 大規模データに強い高速ブースティング

Qast を導入してみませんか？