活用テクニック2026年3月16日

コルモゴロフ-スミルノフ検定入門 — 累積分布の最大乖離を検定

コルモゴロフ-スミルノフ検定の仕組みをやさしく解説します。経験的累積分布関数と理論分布を比較し、任意の分布への適合度を判定する汎用的な手法を学びましょう。

コルモゴロフ-スミルノフ検定の概念図

コルモゴロフ-スミルノフ検定(KS検定)は、データの経験的累積分布関数(ECDF)と理論的な累積分布関数(CDF)の最大乖離を測定し、データが特定の分布に従うかどうかを判定する検定です。正規分布だけでなく、指数分布や一様分布など任意の理論分布との比較が可能な汎用性の高い手法です。

累積分布関数の最大差 D統計量

KS検定の核となるのがD統計量です。これは、データから作った階段状の経験的累積分布関数(ECDF)と、理論上の累積分布関数(CDF)の差の絶対値の最大値です。直感的に言えば、「2つの累積分布が最も離れているポイント」を見つけ、その距離が大きすぎれば「この理論分布には従わない」と判定します。

2つの使い方 — 1標本検定と2標本検定

KS検定には2つの使い方があります。1標本KS検定はデータを特定の理論分布と比較するもので、「このデータは正規分布に従うか?」といった問いに答えます。2標本KS検定は2つのデータセットの分布を互いに比較するもので、「AグループとBグループの売上分布は同じか?」といった問いに使えます。

正規性検定としてのKS検定の注意点

正規性の検定に限定すると、KS検定はShapiro-Wilk検定やAnderson-Darling検定と比較して検出力が低い傾向があります。これは、KS検定が分布の中央部に重みを置き、裾(テール)部分の違いを見落としやすいためです。正規性の検定が目的であれば、Shapiro-Wilk検定を優先し、KS検定は「任意の2つの分布を比較したい場合」に使うのがベストプラクティスです。

Qast の EDA 機能では、正規性の判定に加え、データ分布の全体的な特徴把握にもKS検定の考え方が活用されています。複数の検定結果を総合的に判断することで、信頼性の高い分析が可能になります。

Qast を導入してみませんか?

導入のご相談やデモのご依頼は、お気軽にお問い合わせください。