過学習と汎化性能
過学習は、訓練データにはよく当てはまる一方で、未知データに対する性能が低い状態です。モデルが本質的な規則ではなく、訓練データに含まれる偶然のノイズや例外まで覚えてしまうことが原因です。G検定では「訓練精度は高いがテスト精度が低い」という表現が過学習の典型的な手掛かりです。
正解の理由
問題文は、訓練データでは高精度だが未知のテストデータで精度が大きく下がる状態を説明しています。これは汎化性能が低い、すなわち過学習している状態なので、選択肢1が正解です。
他の選択肢の評価
- 選択肢2の次元削減は、特徴量の数を減らしたり低次元に表現したりする手法です。過学習対策に役立つことはありますが、状態名ではありません。
- 選択肢3の標準化は、平均0・分散1などにスケールをそろえる前処理です。
- 選択肢4のアンサンブル学習は、複数モデルを組み合わせる手法です。汎化性能向上に使われることがありますが、問題文の状態そのものではありません。
対策と実務上の意味
- 正則化、早期終了、データ拡張、特徴量削減、モデルの単純化、交差検証などが代表的な対策です。
- テストデータを何度も見て調整すると、テストデータにも過適合するため、検証データとテストデータを分ける設計が重要です。
試験では、過学習を「学習不足」と混同しないことが大切です。学習不足は訓練データでも性能が低い状態です。
試験対策の確認
この論点では、用語の暗記だけでなく「どの入力を使い、何を予測し、どの指標で評価するか」を対応づけることが重要です。実務では、データ分割、前処理、評価指標の選択を誤ると、訓練時に良く見えるモデルでも本番で役に立たないことがあります。選択肢を読むときは、教師あり・教師なし・強化学習、分類・回帰、前処理・評価・モデル構造のどの話かを切り分けて判断しましょう。
追加の確認観点
選択肢を解くときは、まず問題が「学習方法」「タスク種別」「評価指標」「前処理」「モデルの性質」のどれを問うているかを分けてください。機械学習では、同じ用語でも目的変数の有無、正解ラベルの有無、データ分割の方法によって意味が変わります。実務では、モデルを選ぶ前に、予測したい値、利用できる特徴量、誤判定のコスト、説明責任の必要性を整理します。G検定では、名称を覚えるだけでなく、どの場面で使い、どの失敗を避けるための考え方かまで結びつけると安定して判断できます。