混同行列の4要素
二値分類の評価では、実際のクラスと予測クラスの組み合わせを混同行列で整理します。陽性を正しく陽性と予測すればTP、陰性を正しく陰性と予測すればTNです。一方、誤りにはFPとFNがあり、どちらの誤りが重大かは業務によって異なります。
正解の理由
問題文は「実際は陽性であるデータを、モデルが陰性と予測した場合」です。実際はPositiveなのに予測がNegativeなので、False Negative、すなわち偽陰性です。したがって選択肢1が正解です。医療検査で病気の人を陰性と判定する、異常検知で異常を見逃す、といったケースがFNに相当します。
他の選択肢の評価
- 選択肢2の真陽性(TP)は、実際も陽性、予測も陽性の正解ケースです。
- 選択肢3の偽陽性(FP)は、実際は陰性なのに陽性と予測したケースです。正常な取引を不正と誤判定する例が典型です。
- 選択肢4の真陰性(TN)は、実際も陰性、予測も陰性の正解ケースです。
G検定向け整理
- Recall = TP / (TP + FN)。陽性の見逃しをどれだけ防げたかを見る指標です。
- Precision = TP / (TP + FP)。陽性と予測したものがどれだけ正しかったかを見る指標です。
- Accuracyだけでは、クラス不均衡が大きい問題で性能を誤解することがあります。
実務では、見逃しが高コストならFNを減らす設計、誤警報が高コストならFPを減らす設計を重視します。
試験対策の確認
この論点では、用語の暗記だけでなく「どの入力を使い、何を予測し、どの指標で評価するか」を対応づけることが重要です。実務では、データ分割、前処理、評価指標の選択を誤ると、訓練時に良く見えるモデルでも本番で役に立たないことがあります。選択肢を読むときは、教師あり・教師なし・強化学習、分類・回帰、前処理・評価・モデル構造のどの話かを切り分けて判断しましょう。
追加の確認観点
選択肢を解くときは、まず問題が「学習方法」「タスク種別」「評価指標」「前処理」「モデルの性質」のどれを問うているかを分けてください。機械学習では、同じ用語でも目的変数の有無、正解ラベルの有無、データ分割の方法によって意味が変わります。実務では、モデルを選ぶ前に、予測したい値、利用できる特徴量、誤判定のコスト、説明責任の必要性を整理します。G検定では、名称を覚えるだけでなく、どの場面で使い、どの失敗を避けるための考え方かまで結びつけると安定して判断できます。