データ行列の形
機械学習では、複数のデータを行列として表すことが多く、一般に行をデータ、列を特徴量として並べます。問題では100件のデータがあり、各データに5個の特徴量があるため、行数は100、列数は5になります。G検定では、データ行列の形状を読み取る問題が、線形代数やモデル入力の基礎として出題されます。
正解の理由
選択肢2の100行5列が正解です。1行が1件のデータを表し、5列がそのデータの5個の特徴量を表します。たとえば、100人分の顧客データがあり、年齢、購入回数、滞在時間、会員期間、直近購入額の5特徴量を持つなら、100×5の行列として扱えます。
G検定で押さえるポイント
- 一般的な表形式データでは、行がサンプル、列が特徴量です。
- 目的変数は特徴量行列とは別に、長さ100のラベルベクトルとして持つことが多いです。
- ライブラリによっては入力形状の指定が厳密なので、行列の向きを間違えると学習や予測ができません。
混同しやすい論点
- 5行100列は、特徴量を行、データを列にした形であり、問題文の「行をデータ、列を特徴量」とは逆です。
- 1行500列や500行1列に平坦化すると、どこまでが1件のデータか分かりにくくなります。
- 画像や時系列では次元が増えますが、表形式データの基本は「サンプル数×特徴量数」です。
他の選択肢の評価
- 選択肢1は行と列が逆です。
- 選択肢2が正解です。100件のデータが行、5特徴量が列です。
- 選択肢3は1件のデータとして500個の特徴量を持つように見えてしまいます。
- 選択肢4は500件の1特徴量データのように見え、問題の条件と合いません。
実務上の意味
実務では、CSVやデータフレームをモデルに渡す前に、行と列の意味を確認します。列に目的変数が混ざっている、IDのような特徴量でない列を入れている、行列を転置してしまう、といったミスは精度低下やデータリークにつながります。
G検定では、用語の丸暗記だけでなく「どの場面で使う概念か」「何と対比されるか」まで問われやすいです。正答を選んだ後に、誤答がなぜ成り立たないかを説明できる状態にしておくと、文章表現を変えた問題にも対応しやすくなります。G検定対策では、正解語だけでなく、反対概念、代表例、限界、現在の実務での使われ方を一緒に説明できる粒度まで確認しておくと安定します。また、問題文の時代背景や技術名を手がかりに、どのAIブーム・どの学習方式・どの限界の話かを切り分けてください。