平均値の計算
平均値は、データ全体の代表値として最も基本的な統計量です。すべての値を合計し、データの個数で割って求めます。G検定では高度な計算問題だけでなく、平均、中央値、分散、標準偏差のような基礎統計量の意味を、機械学習の前処理や評価指標と結び付けて理解しておくことが重要です。
正解の理由
データ (2, 4, 6, 8) の合計は20で、データ数は4です。したがって平均値は 20 ÷ 4 = 5 です。平均値は全データを均等にならしたときの値と考えると直感的です。
- すべての値を足します: 2 + 4 + 6 + 8 = 20。
- データの個数を数えます: 4個。
- 合計を個数で割ります: 20 ÷ 4 = 5。
G検定で押さえるポイント
- 平均値は外れ値の影響を受けやすい代表値です。
- 中央値はデータを並べた中央の値で、外れ値に比較的強いです。
- 平均値は損失関数や評価指標でもよく現れます。平均二乗誤差や平均絶対誤差などが代表例です。
混同しやすい論点
- 平均値と中央値は必ず同じではありません。分布が歪んでいたり外れ値があると差が大きくなります。
- 合計をデータ数で割るのが平均であり、最大値と最小値の差は範囲です。
- データ数で割るか、標本分散のように n-1 で割るかは統計量によって異なります。平均値では通常データ数で割ります。
実務上の意味
実務では、平均値だけを見るとデータの偏りを見落とすことがあります。たとえば一部の高額購入者が平均売上を押し上げる場合、典型的な顧客像は中央値や分位点で見た方が適切です。機械学習の特徴量標準化でも平均は中心化に使われるため、基礎的な計算と意味を確実に理解しておきます。
G検定では、用語の丸暗記だけでなく「どの場面で使う概念か」「何と対比されるか」まで問われやすいです。正答を選んだ後に、誤答がなぜ成り立たないかを説明できる状態にしておくと、文章表現を変えた問題にも対応しやすくなります。G検定対策では、正解語だけでなく、反対概念、代表例、限界、現在の実務での使われ方を一緒に説明できる粒度まで確認しておくと安定します。また、問題文の時代背景や技術名を手がかりに、どのAIブーム・どの学習方式・どの限界の話かを切り分けてください。