特徴量スケールとアルゴリズム
特徴量の標準化は、平均0・分散1などに値のスケールをそろえる前処理です。特に距離や内積に基づく手法では、単位や値の範囲が大きい特徴量が計算結果を支配しやすくなります。G検定では「k-NN、SVM、主成分分析、ニューラルネットワークはスケーリングの影響を受けやすい」と押さえるとよいです。
正解の理由
選択肢1のk-最近傍法は、未知データに近い訓練データを距離で探す手法です。SVMもマージンや内積に基づいて境界を求めるため、特徴量のスケール差に敏感です。例えば「年齢」と「年収」をそのままユークリッド距離に入れると、値の桁が大きい年収が距離をほぼ決めてしまうことがあります。
他の選択肢の評価
- 選択肢2の決定木は、各特徴量のしきい値で分割するため、単調なスケール変換には比較的強いです。
- 選択肢3のランダムフォレストは決定木のアンサンブルなので、同様にスケール差の影響は比較的小さいです。
- 選択肢4のルールベースif文判定は、学習アルゴリズムではなく、人間が決めた条件に従う処理です。
実務上の意味
- 標準化は、訓練データで平均・標準偏差を計算し、検証・テスト・本番データには同じ値を使って変換します。
- テストデータを含めて平均を計算すると情報漏洩になります。
- 外れ値が大きい場合は、標準化だけでなくロバストスケーリングも検討します。
前処理はモデル性能だけでなく、評価の公平性にも関わる重要な論点です。
試験対策の確認
この論点では、用語の暗記だけでなく「どの入力を使い、何を予測し、どの指標で評価するか」を対応づけることが重要です。実務では、データ分割、前処理、評価指標の選択を誤ると、訓練時に良く見えるモデルでも本番で役に立たないことがあります。選択肢を読むときは、教師あり・教師なし・強化学習、分類・回帰、前処理・評価・モデル構造のどの話かを切り分けて判断しましょう。
追加の確認観点
選択肢を解くときは、まず問題が「学習方法」「タスク種別」「評価指標」「前処理」「モデルの性質」のどれを問うているかを分けてください。機械学習では、同じ用語でも目的変数の有無、正解ラベルの有無、データ分割の方法によって意味が変わります。実務では、モデルを選ぶ前に、予測したい値、利用できる特徴量、誤判定のコスト、説明責任の必要性を整理します。G検定では、名称を覚えるだけでなく、どの場面で使い、どの失敗を避けるための考え方かまで結びつけると安定して判断できます。