活用テクニック2026年4月2日

Cohen's Kappa 完全ガイド — 偶然の一致を除いた真のモデル評価

Accuracy 90% でも Kappa は 0.2?偶然の一致を差し引いて「モデルの真の貢献」を測る Cohen's Kappa。計算式・解釈基準・Fleiss' Kappa との違いを解説します。

Cohen's Kappa の概念図

Cohen's Kappa(コーエンのカッパ)は、偶然の一致を差し引いた「モデルの真の分類貢献度」を測る指標です。Accuracy が高くても偶然の一致が多いだけかもしれません。Kappa はこの問題を補正し、モデルが本当に学習しているかを評価します。

Cohen's Kappa とは何か

Cohen's Kappa は κ = (p_o - p_e) / (1 - p_e) で計算されます。p_o は観測された一致率(= Accuracy)、p_e は偶然に期待される一致率です。κ = 1 は完全な一致、κ = 0 は偶然レベルの一致、κ < 0 は偶然よりも悪い(系統的な不一致)を意味します。

なぜ偶然の一致を除く必要があるのか

コインを投げて分類しても、二値分類では約 50% の Accuracy が得られます。不均衡データではさらに高い Accuracy が偶然で達成可能です。例えば、90% が陰性のデータで「すべて陰性」と予測すれば Accuracy 90% ですが、Kappa は 0 となり、モデルが何も学習していないことを正しく反映します。

計算例: 具体的な混同行列から step by step で計算

100件のデータで、実際の陽性30件・陰性70件、モデルの予測が陽性25件・陰性75件とします。TP=20, FP=5, FN=10, TN=65 の場合、p_o = (20+65)/100 = 0.85。偶然の一致率 p_e = (30×25 + 70×75) / 100² = (750 + 5250) / 10000 = 0.60。したがって κ = (0.85 - 0.60) / (1 - 0.60) = 0.625 です。

Kappa の解釈基準(Landis & Koch)

  1. 1

    κ < 0: 偶然以下

    モデルの予測が偶然よりも悪い状態です。系統的な誤りがある可能性があります。

  2. 2

    κ = 0〜0.20: わずかな一致

    ほぼ偶然レベルの一致です。モデルの実質的な貢献はほとんどありません。

  3. 3

    κ = 0.21〜0.40: やや一致

    偶然を多少上回る程度の一致です。改善の余地が大きい状態です。

  4. 4

    κ = 0.41〜0.60: 中程度の一致

    実用上許容できる場合もありますが、タスクの重要度によります。

  5. 5

    κ = 0.61〜0.80: かなりの一致

    良好なモデルです。多くのビジネスユースケースで実用的な性能を発揮します。

  6. 6

    κ = 0.81〜1.00: ほぼ完全な一致

    非常に優秀なモデルです。高い信頼性で予測が行えます。

Accuracy との比較例

不均衡データ(陽性5%)で「すべて陰性」と予測するモデルは Accuracy 95% ですが、Kappa は 0 です。一方、実際に学習して Accuracy 95% を達成したモデルは Kappa が 0.6〜0.8 になります。Kappa は「偶然で達成できる Accuracy を超えてどれだけ貢献しているか」を明確にします。

Weighted Kappa — 順序カテゴリ向け

Weighted Kappa は、誤分類の「程度」を考慮した拡張版です。例えば5段階評価(1〜5)で、正解が5のとき4と予測する誤りと1と予測する誤りでは、後者の方が深刻です。Weighted Kappa は隣接クラスの誤りを軽く、遠いクラスの誤りを重くペナルティすることで、順序データの評価に適した指標となります。

Fleiss' Kappa — 3人以上の評価者間の一致度

Cohen's Kappa が2者間(モデル vs 正解ラベル)の一致度を測るのに対し、Fleiss' Kappa は3人以上の評価者間の一致度を測る拡張です。複数のアノテーターによるラベリングの一致度評価や、複数モデルの予測の一貫性評価に使われます。

Kappa の限界

Kappa にはいくつかの限界があります。有病率(クラスの比率)が極端に偏ると、Kappa が不安定になることがあります(Kappa Paradox)。また、偶然の一致率 p_e の計算が「周辺分布が独立」という仮定に基づいているため、この仮定が成り立たない場合は解釈に注意が必要です。

Qast での活用法

Qast のリーダーボードでは Cohen's Kappa が分類指標の一つとして表示されます。特に不均衡データで Accuracy が高いモデルの「真の実力」を見極めたい場合に、Kappa の値を確認するのが効果的です。Accuracy と Kappa の両方が高いモデルを選ぶのがベストプラクティスです。

不均衡データで Accuracy が信頼できないとき、Kappa はモデルの真の力を示します。Accuracy が高くても Kappa が低ければ、そのモデルは多数派クラスに偏った予測をしている可能性があります。

Qast を導入してみませんか?

導入のご相談やデモのご依頼は、お気軽にお問い合わせください。