探索的データ分析(EDA: Exploratory Data Analysis)は、モデル構築の前にデータの全体像を把握するための重要なプロセスです。Qast の EDA 機能は、CSV をアップロードするだけで16種類の分析を自動実行し、インタラクティブなレポートとして提供します。この記事では、各分析機能の概要と読み方を詳しく解説します。
EDA の重要性 — なぜモデル構築前に分析するのか
EDA を行わずにいきなりモデルを学習すると、データの品質問題(欠損値、外れ値、不正な値)に気付かず低品質なモデルを作ってしまったり、重要な特徴量の関係性を見落としたりするリスクがあります。EDA はデータの「健康診断」であり、すべての機械学習プロジェクトの出発点です。
Qast EDA の始め方
- 1
データセットをアップロード
サイドバーから「データセット」を選択し、CSVファイルをアップロードします。Qast が自動的にスキーマを推論します。
- 2
EDA レポートを生成
データセットの詳細画面で「EDAを実行」ボタンをクリック。数十秒〜数分で16種類の分析が自動実行されます。
- 3
インタラクティブレポートを閲覧
生成されたレポートはタブ形式で整理されており、各分析セクションをクリックして詳細を確認できます。
1. 基本統計量(Descriptive Statistics)
各カラムの基本的な統計情報を一覧で表示します。数値カラムでは平均値、中央値、標準偏差、最小値、最大値、四分位数を、カテゴリカラムではユニーク値数、最頻値、出現頻度を計算します。データの概要を素早く把握するための出発点です。
2. データ型・欠損値分析(Data Quality)
各カラムのデータ型(数値、カテゴリ、日時、テキスト)を自動推論し、欠損値の数と割合を表示します。欠損率が高いカラムはハイライトされ、前処理の方針を検討する材料となります。
3. ヒストグラム・KDE分布図
数値カラムごとにヒストグラム(度数分布)とKDE(カーネル密度推定)曲線を重ねて表示します。データの分布形状(正規分布、右裾が長い、二峰性など)を視覚的に把握でき、スケーリングや変換の方針を決める際に役立ちます。
4. 正規性検定(Normality Tests)
各数値カラムに対して Shapiro-Wilk 検定、D'Agostino-Pearson 検定、Kolmogorov-Smirnov 検定、Anderson-Darling 検定の4つの正規性検定を実行します。結果は p 値で表示され、正規分布に従わないカラムが一目で分かります。
5. QQプロット(Quantile-Quantile Plot)
データの分位数と理論的な正規分布の分位数を対比させたプロットです。データが正規分布に従っていれば点が45度線上に並び、裾が重い分布や歪んだ分布では線から外れます。正規性検定の結果を視覚的に補完する役割を持ちます。
6. 分布フィッティング(Distribution Fitting)
データに対して正規分布、対数正規分布、指数分布、ガンマ分布、ワイブル分布などの理論的分布をフィッティングし、AIC(赤池情報量規準)やBIC(ベイズ情報量規準)で最も当てはまりの良い分布を特定します。
7. 相関分析(Correlation Analysis)
数値カラム間の Pearson 相関係数と Spearman 順位相関係数をヒートマップで表示します。強い相関を持つカラムの組は多重共線性の問題を引き起こす可能性があり、モデル構築時の特徴量選択に活用します。
8. 外れ値検出(Outlier Detection)
IQR法、Z-score法、Isolation Forest の3つの手法で外れ値を検出し、箱ひげ図やスキャッタープロットで可視化します。各手法の検出結果を比較することで、真の外れ値と正常なばらつきを区別できます。
9. 外れ値影響分析(Outlier Impact)
外れ値を除去した場合に各統計量(平均、標準偏差、相関係数など)がどう変化するかをシミュレーションします。外れ値の除去がモデルに与える影響を定量的に評価でき、除去の判断材料となります。
10. カテゴリ変数の分析
カテゴリカラムのユニーク値の分布、出現頻度のトップN、カーディナリティ(ユニーク値の数)を表示します。高カーディナリティのカラムはエンコーディング手法の選択に影響します。
11. クラスタリング分析(K-Means Clustering)
データを自動的にクラスタ(グループ)に分割し、各クラスタの特徴をプロファイルテーブルで表示します。エルボー法やシルエット分析で最適なクラスタ数を自動決定し、PCAによる2D散布図でクラスタの分離を可視化します。
12. 最適クラスタ数の分析(Optimal K)
エルボー法(SSE曲線)とシルエットスコアの2つの指標でクラスタ数k=2〜10を評価し、最適なクラスタ数を推定します。エルボーポイント(SSEの減少が鈍化する点)とシルエットスコアが最大の点を自動検出します。
13. 統計的仮説検定(Hypothesis Testing)
カテゴリ変数と数値変数の関係を自動検定します。2群比較にはt検定またはMann-Whitney U検定を、3群以上の比較にはANOVAまたはKruskal-Wallis検定を自動選択します。正規性検定の結果に基づいてパラメトリック/ノンパラメトリック手法を切り替えます。
14. カイ二乗独立性検定
カテゴリ変数同士の関連性をカイ二乗検定で評価します。クロス集計表とともに期待度数と観測度数の差を表示し、統計的に有意な関連がある変数ペアをハイライトします。
15. 特徴量重要度(Feature Importance)
ターゲット変数に対する各特徴量の予測力をランキングで表示します。ランダムフォレストの特徴量重要度と相互情報量の2つの指標で評価し、モデル構築時に有用な特徴量を事前に把握できます。
16. ペアプロット(Pair Plot)
重要な数値特徴量の組み合わせを散布図マトリクスで表示します。変数間の非線形関係やクラスタ構造を視覚的に発見でき、特徴量エンジニアリングのヒントになります。
EDA レポートの活用方法
EDA レポートの結果は、そのまま学習ジョブの設定に活用できます。例えば、正規性検定で正規分布に従わないカラムが見つかった場合は対数変換を検討し、外れ値が検出された場合は除去するかロバストなアルゴリズムを選択するといった判断が可能です。Qast ではこれらの前処理判断も72パターンのパイプラインで自動化されています。
EDA レポートは PDF としてエクスポートでき、チームメンバーやステークホルダーへの共有に活用できます。データの品質を事前に確認してからモデル構築に進む習慣は、プロジェクトの成功率を大幅に高めます。
Qast の EDA 機能は、学習ジョブの実行前に自動的に実行することも可能です。EDA の結果を参照しながらターゲット変数や特徴量の選択を行うことで、より精度の高いモデルを効率的に構築できます。

