k-meansクラスタリングの流れ
k-meansは、正解ラベルを使わずにデータを似たもの同士のグループに分ける代表的な教師なし学習です。あらかじめクラスタ数kを決め、各データ点を最も近いクラスタ中心に割り当て、割り当てられた点の平均で中心を更新する、という処理を繰り返します。
正解の理由
選択肢1は、データ点を近いもの同士のクラスタに分け、中心の更新と割り当てを繰り返すと説明しています。これはk-meansの基本アルゴリズムそのものです。距離にはユークリッド距離がよく使われ、最終的にはクラスタ内のばらつきが小さくなるように中心が調整されます。
他の選択肢の評価
- 選択肢2は正解ラベルを使って境界を学ぶため、教師あり学習の分類に近い説明です。
- 選択肢3は報酬を受け取りながら行動を学ぶため、強化学習の説明です。
- 選択肢4はランダムな特徴量削除であり、クラスタリングの説明ではありません。
頻出ポイント
- kは事前に指定する必要があります。適切なkを選ぶためにエルボー法などが使われることがあります。
- 初期中心の選び方で結果が変わるため、複数回実行やk-means++が有効です。
- 距離に基づくため、標準化の影響を受けやすいです。
実務では、顧客セグメンテーションや文書分類の前処理に使われます。ただし、クラスタには自動で意味が付くわけではなく、後から人間が特徴を解釈する必要があります。
試験対策の確認
この論点では、用語の暗記だけでなく「どの入力を使い、何を予測し、どの指標で評価するか」を対応づけることが重要です。実務では、データ分割、前処理、評価指標の選択を誤ると、訓練時に良く見えるモデルでも本番で役に立たないことがあります。選択肢を読むときは、教師あり・教師なし・強化学習、分類・回帰、前処理・評価・モデル構造のどの話かを切り分けて判断しましょう。
追加の確認観点
選択肢を解くときは、まず問題が「学習方法」「タスク種別」「評価指標」「前処理」「モデルの性質」のどれを問うているかを分けてください。機械学習では、同じ用語でも目的変数の有無、正解ラベルの有無、データ分割の方法によって意味が変わります。実務では、モデルを選ぶ前に、予測したい値、利用できる特徴量、誤判定のコスト、説明責任の必要性を整理します。G検定では、名称を覚えるだけでなく、どの場面で使い、どの失敗を避けるための考え方かまで結びつけると安定して判断できます。