カイ二乗検定入門 — カテゴリ変数の独立性を検定 | Qast ブログ

カイ二乗検定（χ²検定）は、カテゴリ変数同士の関連性を検定するための手法です。「性別と購買商品カテゴリに関連はあるか？」「地域と支持政党に関連はあるか？」のように、2つの質的データの間に統計的に有意な関連があるかどうかを判定します。数値データのt検定やANOVAに対応する、カテゴリデータ用の基本検定と言えます。

観測度数と期待度数の比較

カイ二乗検定では、まずデータをクロス集計表（分割表）にまとめます。次に「2つの変数が完全に独立だった場合に期待される度数（期待度数）」を計算します。そして、実際に観測された度数と期待度数のズレを二乗和として集計したものがカイ二乗統計量（χ²）です。このズレが大きいほど「2つの変数は独立ではない（関連がある）」という証拠が強くなります。

独立性の検定と適合度検定

カイ二乗検定には主に2つの用途があります。独立性の検定は、2つのカテゴリ変数が互いに独立かどうかを判定します（例：「喫煙習慣と肺疾患に関連はあるか」）。適合度検定は、1つのカテゴリ変数の分布が理論的な分布と一致するかを判定します（例：「サイコロの出目は均等か」）。いずれも観測度数と期待度数の比較という同じ原理に基づいています。

カイ二乗検定の注意点として、期待度数が5未満のセルが多い場合は検定の信頼性が低下します。このような場合はフィッシャーの正確確率検定を使うか、カテゴリを統合して期待度数を増やす工夫が必要です。

Qast の EDA 機能では、カテゴリ変数同士の関係分析時にカイ二乗検定が自動実行されます。クロス集計表とともにp値が表示され、変数間の関連の有無を一目で判断できます。

カイ二乗検定入門 — カテゴリ変数の独立性を検定

観測度数と期待度数の比較

独立性の検定と適合度検定

関連記事

統計的検定の基礎 — Qast EDAで使われる検定手法を解説

Qast を導入してみませんか？