コルモゴロフ-スミルノフ検定入門 — 累積分布の最大乖離を検定 | Qast ブログ

コルモゴロフ-スミルノフ検定（KS検定）は、データの経験的累積分布関数（ECDF）と理論的な累積分布関数（CDF）の最大乖離を測定し、データが特定の分布に従うかどうかを判定する検定です。正規分布だけでなく、指数分布や一様分布など任意の理論分布との比較が可能な汎用性の高い手法です。

累積分布関数の最大差 D統計量

KS検定の核となるのがD統計量です。これは、データから作った階段状の経験的累積分布関数（ECDF）と、理論上の累積分布関数（CDF）の差の絶対値の最大値です。直感的に言えば、「2つの累積分布が最も離れているポイント」を見つけ、その距離が大きすぎれば「この理論分布には従わない」と判定します。

2つの使い方 — 1標本検定と2標本検定

KS検定には2つの使い方があります。1標本KS検定はデータを特定の理論分布と比較するもので、「このデータは正規分布に従うか？」といった問いに答えます。2標本KS検定は2つのデータセットの分布を互いに比較するもので、「AグループとBグループの売上分布は同じか？」といった問いに使えます。

正規性検定としてのKS検定の注意点

正規性の検定に限定すると、KS検定はShapiro-Wilk検定やAnderson-Darling検定と比較して検出力が低い傾向があります。これは、KS検定が分布の中央部に重みを置き、裾（テール）部分の違いを見落としやすいためです。正規性の検定が目的であれば、Shapiro-Wilk検定を優先し、KS検定は「任意の2つの分布を比較したい場合」に使うのがベストプラクティスです。

Qast の EDA 機能では、正規性の判定に加え、データ分布の全体的な特徴把握にもKS検定の考え方が活用されています。複数の検定結果を総合的に判断することで、信頼性の高い分析が可能になります。

コルモゴロフ-スミルノフ検定入門 — 累積分布の最大乖離を検定

累積分布関数の最大差 D統計量

2つの使い方 — 1標本検定と2標本検定

正規性検定としてのKS検定の注意点

関連記事

統計的検定の基礎 — Qast EDAで使われる検定手法を解説

Anderson-Darling検定入門 — 分布の裾に注目した適合度検定

Qast を導入してみませんか？