t検定は、2つの群の平均値に統計的に有意な差があるかどうかを判定するための検定です。1908年にウィリアム・ゴセットが「Student」というペンネームで発表したため、Student のt検定とも呼ばれます。「新しい施策の前後で売上は変わったか?」「AグループとBグループで満足度に差はあるか?」といった問いに答える最も基本的な手法です。
3つの種類 — 1標本・対応のある2標本・独立2標本
- 1
1標本t検定
サンプルの平均値が特定の値(例:母平均 = 50)と異なるかを検定します。「このクラスの平均点は全国平均と同じか?」のような問いに使います。
- 2
対応のあるt検定(ペアードt検定)
同じ対象の前後の測定値を比較します。「ダイエット前後で体重に変化があったか?」のように、同一個体の変化を検定する場合に使います。
- 3
独立2標本t検定
異なる2つのグループの平均を比較します。「男性と女性で購買金額に差があるか?」のように、独立した2群を比較する最も一般的なパターンです。
t統計量と自由度
t検定では、平均値の差を標準誤差で割った「t統計量」を計算します。t統計量が大きいほど、2群の平均の差が偶然では説明しにくいことを示します。自由度はサンプルサイズに基づいて決まり、サンプルが小さいほどt分布の裾が厚くなり、有意と判定されにくくなります。これにより、少ないデータで安易に「差がある」と結論づけることを防ぎます。
前提条件に注意
Student のt検定には「データが正規分布に従う」「2群の分散が等しい(等分散性)」という前提条件があります。正規性はShapiro-Wilk検定で確認できます。分散が等しくない場合はWelchのt検定を使う必要があり、正規性が満たされない場合はMann-Whitney U検定などのノンパラメトリック手法が適切です。
Qast の EDA 機能では、目的変数と各特徴量の関係を分析する際にt検定が自動実行されます。前提条件の確認も自動で行われ、条件に応じてWelchのt検定やノンパラメトリック検定に自動で切り替わります。

