過学習と汎化性能
過学習は、モデルが学習データに過度に適合し、未知データに対する性能が低くなる状態です。訓練データの細かなノイズや偶然のパターンまで覚えてしまうため、学習データでは高精度でも、検証データや本番データでは精度が落ちます。G検定では、過学習、未学習、汎化、正則化、データ分割をセットで理解することが重要です。
正解の理由
選択肢2の学習データへの性能は高いが、未知データへの性能が低い状態が過学習です。モデルの目的は学習データを暗記することではなく、まだ見ていないデータにも適切に対応することです。そのため、訓練誤差だけでなく検証誤差やテスト誤差を見る必要があります。
G検定で押さえるポイント
- 訓練データの性能だけが高く、検証データの性能が低い場合は過学習を疑います。
- モデルが複雑すぎる、データが少ない、ノイズが多い、同じデータで何度も調整しすぎる、といった要因で起こります。
- 対策には正則化、ドロップアウト、早期終了、データ拡張、交差検証、モデル簡素化などがあります。
混同しやすい論点
- 未学習は、モデルが単純すぎるなどの理由で、学習データにも検証データにも十分適合できない状態です。
- 高い訓練精度そのものが悪いのではありません。問題は訓練性能と未知データ性能の差が大きいことです。
- データ数が多いほど必ず過学習しないわけではありませんが、適切なデータ量と多様性は過学習の抑制に役立ちます。
他の選択肢の評価
- 選択肢1は理想的に汎化できている状態に近く、過学習ではありません。
- 選択肢2が正解です。訓練性能と未知データ性能のギャップがポイントです。
- 選択肢3は未学習の説明です。過学習とは逆に、モデルの表現力が足りない状態です。
- 選択肢4は誤りです。データ数が多いこと自体で学習が必ず不可能になるわけではありません。
実務上の意味
実務では、過学習したモデルはPoCやデモでは良く見えても、本番投入後に性能劣化や誤判定を起こします。特に医療、金融、採用、製造検査などでは、未知データでの評価とモニタリングが重要です。学習・検証・テストを分け、運用後もデータ分布の変化を監視することが求められます。
G検定では、用語の丸暗記だけでなく「どの場面で使う概念か」「何と対比されるか」まで問われやすいです。正答を選んだ後に、誤答がなぜ成り立たないかを説明できる状態にしておくと、文章表現を変えた問題にも対応しやすくなります。G検定対策では、正解語だけでなく、反対概念、代表例、限界、現在の実務での使われ方を一緒に説明できる粒度まで確認しておくと安定します。また、問題文の時代背景や技術名を手がかりに、どのAIブーム・どの学習方式・どの限界の話かを切り分けてください。