この問題では、分類モデルの性能を評価する最も基本的でツールである混合行列(Confusion Matrix)について理解を深めます。
混合行列とは?
混合行列は、分類モデルの予測結果と実際の正解をクロス集計表の形で整理したものです。モデルがどのような間違いをしているかを詳細に把握でき、様々な評価指標の計算基盤となります。
2クラス分類における混合行列の構成
2クラス分類問題では、混合行列は以下のような2×2の表で表現されます:
| | 予測値 |
| | 正例 | 負例 |
| 実際値 | 正例 | TP (True Positive) | FN (False Negative) |
| 負例 | FP (False Positive) | TN (True Negative) |
各要素の詳細な定義
1. True Positive (TP) - 真陽性
実際に正例であり、モデルも正例と正しく予測したケース。理想的な予測結果です。
2. True Negative (TN) - 真陰性
実際に負例であり、モデルも負例と正しく予測したケース。これも理想的な予測結果です。
3. False Positive (FP) - 偽陽性(第1種の誤り)
実際は負例なのに、モデルが正例と誤って予測したケース。「偽のアラーム」とも呼ばれます。
4. False Negative (FN) - 偽陰性(第2種の誤り)
実際は正例なのに、モデルが負例と誤って予測したケース。「見逃し」とも呼ばれます。
混合行列から計算される主要な評価指標
1. 精度(Accuracy)
$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$
全体の予測のうち、正しく分類された割合。最も直感的な指標ですが、クラス不均衡がある場合は注意が必要です。
2. 適合率(Precision)
$\text{Precision} = \frac{TP}{TP + FP}$
正例と予測したもののうち、実際に正例だった割合。「予測の信頼性」を表します。
3. 再現率(Recall / Sensitivity)
$\text{Recall} = \frac{TP}{TP + FN}$
実際の正例のうち、正しく検出できた割合。「検出能力」を表します。
4. 特異度(Specificity)
$\text{Specificity} = \frac{TN}{TN + FP}$
実際の負例のうち、正しく負例と判定できた割合。「負例の検出能力」を表します。
評価指標の使い分け
精度(Accuracy)が適している場合:
- クラスが均衡している場合
- 全体的な性能を簡単に把握したい場合
適合率(Precision)を重視すべき場合:
- 偽陽性(FP)のコストが高い場合
- 例:スパムメール検出(重要メールを誤ってスパム判定するリスク)
再現率(Recall)を重視すべき場合:
- 偽陰性(FN)のコストが高い場合
- 例:医療診断(病気を見逃すリスク)、セキュリティ検知
実際の解釈例
医療診断システムの例で考えてみましょう:
- TP:病気の患者を正しく「病気あり」と診断
- TN:健康な人を正しく「病気なし」と診断
- FP:健康な人を誤って「病気あり」と診断(過剰診断)
- FN:病気の患者を誤って「病気なし」と診断(見逃し)
この場合、FN(見逃し)は患者の生命に関わるため、再現率を高める必要があります。
実践的なポイント:
混合行列は単なる数値の集計ではなく、ビジネス上の意思決定に直結する情報を提供します。どの指標を重視するかは、問題の性質とコストを考慮して決定する必要があります。また、適合率と再現率はトレードオフの関係にあることが多く、F1スコア(両者の調和平均)でバランスを評価しましょう。