平均値の意味と計算
平均値は、データ全体の合計をデータ数で割った代表値です。データ (2, 4, 6, 8) の合計は 20、データ数は 4 なので、平均値は $20/4=5$ です。正解は 5 です。 (選択肢2が正しい)
正解の理由
平均値は、データ全体の合計をデータ数で割った代表値です。データ (2, 4, 6, 8) の合計は 20、データ数は 4 なので、平均値は $20/4=5$ です。正解は 5 です。
仕組み・頻出ポイント
- 平均値は全データを使うため、データ全体の水準を1つの数で表しやすい指標です。
- 一方で、極端に大きい値や小さい値、つまり外れ値の影響を受けやすい性質があります。
- 機械学習では特徴量の中心化、標準化、損失や評価指標の平均など、多くの場面で使われます。
G検定で覚えるべきこと
中央値や最頻値との違いが頻出です。平均値は計算しやすい反面、所得や売上のように分布が歪むデータでは実感とずれることがあります。G検定では、単に計算できるだけでなく、どの代表値がどの状況に向くかを判断できるようにしてください。
他の選択肢の評価
- 選択肢1: 4 は合計やデータ数の扱いを誤った値です。
- 選択肢2: 正解です。合計20を4で割ります。
- 選択肢3: 6 は中央付近の値に見えますが平均ではありません。
- 選択肢4: 8 は最大値であり、代表値としての平均ではありません。
実務上の意味
統計の基本用語は、モデル評価やデータ前処理の判断にも直結します。数式だけでなく、値が大きいと何を意味するのか、どの前提で解釈できるのか、意思決定でどの誤りを避けるべきかを合わせて確認してください。
追加の確認観点
確認観点としては、平均値が「全データを均等に反映する代表値」である一方、外れ値に弱い点を押さえます。AI実務では、平均精度や平均損失だけを見ると、特定グループや外れ値での悪い挙動を見落とすことがあります。平均を使うときは、中央値、分散、分布の形も併せて確認する姿勢が重要です。
結論として、この問題では「用語の定義」だけでなく、どの前提で使えるのか、どの誤解を避けるべきか、実務では何を確認するのかまで結びつけて理解することが重要です。