分類と回帰の違い
教師あり学習の代表的なタスクは分類と回帰です。分類は離散的なクラスを予測し、回帰は連続値を予測します。G検定では、問題文の予測対象が「カテゴリ」なのか「数値」なのかを最初に確認すると、選択肢を素早く絞れます。
正解の理由
選択肢1の住宅価格は、面積や築年数などの特徴量から金額という連続値を予測するため、回帰問題として扱うのが自然です。線形回帰、決定木回帰、ランダムフォレスト回帰、勾配ブースティング回帰などが代表的な候補になります。
他の選択肢の評価
- 選択肢2のスパム判定は、スパムか否かを出す二値分類です。
- 選択肢3の犬猫判定も、画像を犬・猫というクラスに分ける分類問題です。
- 選択肢4の顧客を3グループに分ける処理は、正解ラベルがない場合はクラスタリングです。あらかじめ「優良顧客」「休眠顧客」などのラベルが付いているなら分類になりますが、この文脈では教師なし学習と考えます。
混同しやすい論点
- 数値に見えても、郵便番号や顧客IDのような識別子は回帰対象ではありません。
- クラス番号が0、1、2で表されていても、大小関係を予測するわけでなければ分類です。
実務上は、評価指標も変わります。回帰ではRMSEやMAE、分類ではAccuracy、Precision、Recall、F1などを使い分けます。
試験対策の確認
この論点では、用語の暗記だけでなく「どの入力を使い、何を予測し、どの指標で評価するか」を対応づけることが重要です。実務では、データ分割、前処理、評価指標の選択を誤ると、訓練時に良く見えるモデルでも本番で役に立たないことがあります。選択肢を読むときは、教師あり・教師なし・強化学習、分類・回帰、前処理・評価・モデル構造のどの話かを切り分けて判断しましょう。
追加の確認観点
選択肢を解くときは、まず問題が「学習方法」「タスク種別」「評価指標」「前処理」「モデルの性質」のどれを問うているかを分けてください。機械学習では、同じ用語でも目的変数の有無、正解ラベルの有無、データ分割の方法によって意味が変わります。実務では、モデルを選ぶ前に、予測したい値、利用できる特徴量、誤判定のコスト、説明責任の必要性を整理します。G検定では、名称を覚えるだけでなく、どの場面で使い、どの失敗を避けるための考え方かまで結びつけると安定して判断できます。