教師あり学習の基本構造
教師あり学習は、入力データと正解ラベルの組を使って、未知の入力に対する出力を予測する関数を学習する方法です。画像に「犬」「猫」というラベルを付けて分類器を作る、住宅の特徴量から価格を予測する、メール本文から迷惑メールかどうかを判定する、といった例が典型です。G検定では、教師なし学習や強化学習との違いを問う形で出題されやすいです。
正解の理由
選択肢1のように、正解ラベル付きデータを用いて入力から出力への対応関係を学ぶのが教師あり学習です。ここでいう「教師」は人間の先生ではなく、学習時に与えられる正解情報を指します。目的変数がカテゴリなら分類、連続値なら回帰として扱うことが多く、どちらも教師あり学習の代表例です。
G検定で押さえるポイント
- 教師あり学習には、入力を表す特徴量と、予測したい正解ラベルまたは目的変数が必要です。
- 分類はカテゴリを予測し、回帰は数値を予測します。どちらも正解付きデータを使う点では同じです。
- 性能評価では、学習に使っていない検証データやテストデータで汎化性能を確認します。
混同しやすい論点
- 教師なし学習はラベルなしデータから構造を見つけるため、クラスタリングや次元削減が代表例です。
- 強化学習は正解ラベルではなく報酬をもとに方策を改善するため、ゲームやロボット制御の文脈で出ます。
- ルールベースは人間がif文などで規則を直接書く方式であり、データから関数を推定する教師あり学習とは異なります。
他の選択肢の評価
- 選択肢1が正解です。ラベル付きデータから入力と出力の対応を学ぶ点が教師あり学習の核心です。
- 選択肢2は強化学習の説明です。報酬と環境との相互作用が中心です。
- 選択肢3は教師なし学習の説明です。正解ラベルを使わずデータの構造を探します。
- 選択肢4はルールベースシステムの説明です。機械学習のようにデータから規則を獲得するものではありません。
実務上の意味
実務では、教師あり学習を使うには質のよいラベルデータが必要です。ラベル定義が曖昧だと、モデルは一貫した規則を学べません。また、学習時のデータ分布と運用時のデータ分布がずれると精度が落ちるため、データ収集、ラベル設計、評価設計がモデル選定と同じくらい重要になります。
G検定では、用語の丸暗記だけでなく「どの場面で使う概念か」「何と対比されるか」まで問われやすいです。正答を選んだ後に、誤答がなぜ成り立たないかを説明できる状態にしておくと、文章表現を変えた問題にも対応しやすくなります。G検定対策では、正解語だけでなく、反対概念、代表例、限界、現在の実務での使われ方を一緒に説明できる粒度まで確認しておくと安定します。また、問題文の時代背景や技術名を手がかりに、どのAIブーム・どの学習方式・どの限界の話かを切り分けてください。