活用テクニック2026年2月28日

統計的検定の基礎 — Qast EDAで使われる検定手法を解説

「この差は偶然?」「この分布は正規分布?」——探索的データ分析(EDA)で自動実行される統計的検定の手法と読み方をやさしく解説します。

Qast の統計的検定結果表示画面

統計的検定(仮説検定)とは、データから得られた結果が「偶然の産物なのか、統計的に意味のある差なのか」を判断するための手法です。Qast の EDA(探索的データ分析)機能では、データの性質を自動的に検定してレポートします。この記事では、代表的な検定手法とその読み方を解説します。

仮説検定の基本的な考え方

仮説検定では、まず「差がない」「関係がない」という帰無仮説(H₀)を立て、データがこの仮説と矛盾するかどうかを p 値で評価します。p 値が有意水準(通常 0.05)未満であれば、帰無仮説を棄却して「統計的に有意な差がある」と判断します。

  1. 1

    帰無仮説(H₀)を設定

    「2群の平均に差はない」「データは正規分布に従う」などの仮説を立てます。

  2. 2

    検定統計量を計算

    データから検定に応じた統計量(t値、χ²値など)を計算します。

  3. 3

    p 値で判断

    p < 0.05 なら帰無仮説を棄却(有意差あり)。p ≥ 0.05 なら棄却できない(有意差があるとは言えない)。

p 値が 0.05 以上でも「差がない」とは限りません。「現在のデータでは差があるとは言い切れない」という意味です。サンプルサイズを増やすことで、小さな差も検出できるようになります。

正規性の検定 — データの分布を確認する

多くの統計手法は「データが正規分布(ベルカーブ型の分布)に従う」ことを前提としています。正規性の検定は、この前提が成り立つかどうかを確認するために使われます。

  1. 1

    Shapiro-Wilk 検定

    小〜中規模のデータ(数千件程度まで)に適した正規性検定です。検出力が高く、正規性の検定ではもっとも広く使われています。

  2. 2

    D'Agostino-Pearson 検定

    歪度(分布の左右非対称性)と尖度(分布の尖り具合)の両方を考慮する検定です。中〜大規模のデータに適しています。

  3. 3

    Kolmogorov-Smirnov 検定(KS 検定)

    データの累積分布と理論的な正規分布の最大乖離を検定します。大規模データにも適用可能ですが、Shapiro-Wilk より検出力がやや低い傾向があります。

  4. 4

    Anderson-Darling 検定

    KS 検定を改良し、分布の裾(極端な値の部分)に重みを付けた検定です。裾の挙動が重要なケースに有効です。

2群の平均値の差の検定

「施策Aと施策Bで売上に差があるか」のように、2つのグループの平均を比較する場面で使います。

  1. 1

    t 検定(Student の t 検定)

    2群の平均に有意な差があるかを検定します。データが正規分布に従い、2群の分散が等しい場合に使用します。

  2. 2

    Welch の t 検定

    2群の分散が等しいとは限らない場合の t 検定です。実務ではこちらを使うのが一般的です。Qast もデフォルトで Welch の t 検定を採用しています。

  3. 3

    Mann-Whitney U 検定

    データが正規分布に従わない場合のノンパラメトリック検定です。順位に基づいて比較するため、外れ値に頑健です。

3群以上の比較 — 分散分析(ANOVA)

3つ以上のグループの平均を同時に比較する場合は、t検定を繰り返すのではなく、分散分析(ANOVA)を用います。t検定の多重実施は「偶然の有意差」が出やすくなるためです。

  1. 1

    一元配置分散分析(One-Way ANOVA)

    1つの要因(例:3種類の施策)で3群以上の平均を比較します。データが正規分布に従い、分散が等しいことを仮定します。

  2. 2

    Kruskal-Wallis 検定

    ANOVAのノンパラメトリック版です。正規性の仮定が成り立たない場合に使用します。

  3. 3

    事後検定(Tukey HSD, Bonferroni 等)

    ANOVAで有意差が見つかった後、「どの群とどの群の間に差があるか」を特定するための多重比較法です。

カテゴリ変数の関連性 — カイ二乗検定

「性別と購買行動に関連があるか」のように、2つのカテゴリ変数の独立性を検定する手法です。クロス集計表(分割表)を作成し、「もし2変数が独立だったら」という期待度数と、実際の観測度数の乖離を χ²(カイ二乗)統計量で評価します。

相関の検定 — 変数間の関係を数値化

  1. 1

    Pearson の相関係数

    2つの数値変数の線形な関係の強さを -1〜+1 で表します。正規分布を仮定するパラメトリック手法です。

  2. 2

    Spearman の順位相関

    順位に変換してから相関を計算するノンパラメトリック手法です。非線形でも単調な関係(一方が増えれば他方も増える)があれば検出できます。

Qast EDA での自動検定

Qast の EDA 機能では、アップロードされたデータの各カラムに対して正規性検定・外れ値検出・相関分析を自動実行し、レポートとして提示します。検定結果は p 値とともに表示され、有意水準を下回った項目はハイライトされるため、統計の専門知識がなくてもデータの特性を把握できます。

統計的検定はあくまで判断の補助ツールです。p 値だけでなく、効果量(差の大きさ)や実務的な意味も合わせて総合的に判断しましょう。Qast はヒストグラムや箱ひげ図などの可視化も同時に提供するため、数値と直感の両面からデータを理解できます。

Qast を導入してみませんか?

導入のご相談やデモのご依頼は、お気軽にお問い合わせください。