Accuracyの計算
Accuracy(正解率)は、全データのうち正しく分類できた割合を表す基本的な分類評価指標です。混同行列では、正しく分類した数はTPとTNの合計です。誤分類した数はFPとFNであり、全体件数はTP、TN、FP、FNの総和です。
正解の理由
$Accuracy = rac{TP + TN}{TP + TN + FP + FN}$
問題ではTP=30、TN=50、FP=10、FN=10です。したがって、正解数は (30+50=80)、全体は (30+50+10+10=100) です。
$Accuracy = rac{80}{100}=0.80$
よって選択肢1の0.80が正解です。
他の選択肢の評価
- 選択肢2の0.30はTPだけを全体の一部として見たような値で、正解率ではありません。
- 選択肢3の0.50はTNだけ、または一部の件数だけを見た値に近く、Accuracyの定義と合いません。
- 選択肢4の0.20はFP+FNの誤分類率に相当します。誤分類率は (1-Accuracy) なので、この問題では0.20です。
注意すべき論点
- Accuracyは直感的ですが、クラス不均衡に弱いです。陽性が1%しかないデータで常に陰性と予測しても99%になり得ます。
- 陽性の見逃しを避けたい場合はRecall、陽性予測の信頼性を見たい場合はPrecision、両方のバランスを見る場合はF1を確認します。
G検定では、指標の式だけでなく、どの業務リスクに対応する指標かも押さえてください。
追加の確認観点
選択肢を解くときは、まず問題が「学習方法」「タスク種別」「評価指標」「前処理」「モデルの性質」のどれを問うているかを分けてください。機械学習では、同じ用語でも目的変数の有無、正解ラベルの有無、データ分割の方法によって意味が変わります。実務では、モデルを選ぶ前に、予測したい値、利用できる特徴量、誤判定のコスト、説明責任の必要性を整理します。G検定では、名称を覚えるだけでなく、どの場面で使い、どの失敗を避けるための考え方かまで結びつけると安定して判断できます。