活用テクニック2026年2月25日

クラスタリング手法まとめ — データの隠れたグループを発見する技術

「顧客をセグメント分けしたい」「似たデータをまとめたい」——教師なし学習の代表格であるクラスタリングの主要手法を、仕組み・特徴・選び方と共にやさしく解説します。

クラスタリングによるデータのグループ分けのイメージ

クラスタリングとは、ラベル(正解データ)が付いていないデータを「似たもの同士」のグループ(クラスタ)に自動で分ける教師なし学習の手法です。顧客セグメンテーション、異常検知、画像の分類前処理など、幅広いビジネスシーンで活用されています。この記事では、代表的なクラスタリング手法の仕組みと使いどころを解説します。

クラスタリングと分類の違い

分類(Classification)は「このデータはカテゴリAかBか」をあらかじめ用意されたラベルで学習する教師あり学習です。一方クラスタリング(Clustering)は、ラベルなしでデータの構造そのものからグループを発見します。「どんなグループがあるか分からないが、とにかく似たものをまとめたい」という場面で威力を発揮します。

K-Means — 最もポピュラーなクラスタリング手法

K-Means は、あらかじめ指定したクラスタ数 K 個の中心点(セントロイド)をランダムに配置し、「各データ点を最寄りの中心点に割り当て → 中心点を再計算」を収束するまで繰り返すシンプルなアルゴリズムです。計算が高速で大規模データにも適用でき、最も広く使われています。

  1. 1

    得意な場面

    クラスタが球状にまとまっており、サイズがおおむね均等なデータ。顧客セグメンテーションや商品カテゴリ分けに多用されます。

  2. 2

    苦手な場面

    クラスタの形が非球状(三日月型・リング状など)、クラスタごとにサイズや密度が大きく異なるデータ。

  3. 3

    注意点

    クラスタ数 K を事前に決める必要があります。エルボー法やシルエット分析で最適な K を探るのが定石です。

Qast の EDA(探索的データ分析)機能では、エルボー法とシルエットスコアのグラフを自動生成し、最適なクラスタ数の判断を支援します。

DBSCAN — 密度ベースで形状を問わないクラスタリング

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)は、データが密集している領域をクラスタとみなし、密度が低い領域をノイズ(外れ値)として分離する手法です。K-Means と異なりクラスタ数を事前に指定する必要がなく、三日月型やリング状など任意の形状のクラスタを検出できます。

  1. 1

    得意な場面

    不規則な形状のクラスタ、ノイズ(外れ値)を含むデータ。地理空間データのクラスタリング(店舗の集積エリア検出など)にも効果的です。

  2. 2

    苦手な場面

    クラスタごとの密度が大きく異なるデータ。高次元データでは距離の意味が薄れるため、精度が落ちやすくなります。

  3. 3

    主要パラメータ

    eps(近傍半径)と min_samples(コア点の最小データ数)の2つ。これらの設定がクラスタの粒度に大きく影響します。

階層的クラスタリング — ツリー構造でクラスタの関係を可視化

階層的クラスタリング(Agglomerative Clustering)は、各データ点を個別のクラスタとして出発し、最も近いクラスタ同士を順番に統合していくボトムアップ型の手法です。結果はデンドログラム(樹形図)で可視化でき、「どのクラスタがどの段階で統合されたか」という階層構造を把握できます。

  1. 1

    得意な場面

    クラスタ間の階層関係を知りたい場合(生物の系統分類、組織構造の分析など)。デンドログラムの切断位置で柔軟にクラスタ数を決められます。

  2. 2

    苦手な場面

    大規模データ(計算量が O(n²) 以上)。一度統合したクラスタは分割できないため、初期段階の誤った統合が最終結果に影響します。

  3. 3

    リンケージ法の選択

    ward 法(分散最小化)、完全リンケージ(最大距離)、平均リンケージ(平均距離)など。ward 法は球状のクラスタに向いており、最もよく使われます。

ガウス混合モデル(GMM) — 確率ベースのソフトクラスタリング

ガウス混合モデル(Gaussian Mixture Model)は、データが複数のガウス分布(正規分布)の混合から生成されたと仮定し、EM アルゴリズムで各分布のパラメータを推定する手法です。K-Means が各データ点を1つのクラスタに「硬く」割り当てるのに対し、GMM は「クラスタ A に属する確率 70%、クラスタ B に 30%」のように確率的に割り当てます。

  1. 1

    得意な場面

    クラスタが楕円形や重なりのある場合。所属確率を知りたい場合(曖昧な境界のセグメンテーション)。

  2. 2

    苦手な場面

    クラスタの形状がガウス分布から大きく外れる場合。高次元データではパラメータ推定が不安定になりやすい。

  3. 3

    利点

    BIC(ベイズ情報量基準)や AIC を使って最適なクラスタ数を統計的に選択できます。

Mean Shift — カーネル密度推定でクラスタ中心を探索

Mean Shift は、各データ点から密度が最大となる方向に反復的に移動し、収束した点をクラスタの中心とする手法です。DBSCAN と同様にクラスタ数を事前に指定する必要がなく、密度の山(モード)を自動検出します。画像のセグメンテーションや物体追跡で広く使われてきました。

Mean Shift はバンド幅(カーネルの半径)の設定が結果に大きく影響します。scikit-learn の estimate_bandwidth 関数でデータから自動推定できます。

手法の選び方ガイド

クラスタリング手法の選択は、データの特性と分析の目的によって決まります。以下のフローチャートを参考にしてください。

  1. 1

    クラスタ数が分かっている、またはエルボー法で決められる

    → K-Means(球状クラスタ)または GMM(楕円形・重なりあり)が第一候補。

  2. 2

    クラスタ数が不明で、外れ値も除外したい

    → DBSCAN がおすすめ。eps と min_samples の調整で粒度を制御。

  3. 3

    クラスタの階層関係を把握したい

    → 階層的クラスタリング。ただしデータが1万件以上なら計算時間に注意。

  4. 4

    所属確率を知りたい(ソフトクラスタリング)

    → GMM。各データ点がどのクラスタにどれだけ属するか確率で得られます。

  5. 5

    不規則な形状のクラスタを検出したい

    → DBSCAN または Mean Shift。密度ベースの手法が効果的です。

クラスタリングの評価指標

教師なし学習であるクラスタリングは、正解ラベルがないため評価が難しい側面があります。以下の内部評価指標がよく使われます。

  1. 1

    シルエットスコア

    各データ点が自クラスタにどれだけ適合し、隣接クラスタからどれだけ離れているかを -1〜1 で表す。1 に近いほど良いクラスタリング。

  2. 2

    エルボー法(SSE / イナーシャ)

    クラスタ数を増やしたときの SSE(クラスタ内距離の二乗和)の減少率を確認。減少が緩やかになる「肘」の位置が最適なクラスタ数の目安。

  3. 3

    Davies-Bouldin Index

    クラスタ間の分離度とクラスタ内の凝集度の比。値が小さいほどクラスタが明確に分離されている。

Qast でのクラスタリング活用

Qast の EDA 機能では、K-Means クラスタリングを自動実行し、最適クラスタ数の探索(エルボー法・シルエット分析)、散布図でのクラスタ可視化、クラスタごとの特徴量プロファイルを提供します。クラスタリングの結果を元に、各グループの特徴を理解してから予測モデルを構築することで、より高精度なモデルが期待できます。

クラスタリング結果を新たな特徴量(クラスタ番号)として学習データに追加する手法は「クラスタ特徴量エンジニアリング」と呼ばれ、予測精度の向上に寄与することがあります。Qast ではこのアプローチを前処理レシピの一部として自動的に試行します。

Qast を導入してみませんか?

導入のご相談やデモのご依頼は、お気軽にお問い合わせください。