分散が表すもの
分散は、各データが平均からどれくらい離れているかを二乗し、その平均を取ったばらつきの指標です。値が大きいほど、データが平均の周りにまとまらず広く散らばっていることを意味します。正解は「データのばらつきの大きさを表す」です。 (選択肢2が正しい)
正解の理由
分散は、各データが平均からどれくらい離れているかを二乗し、その平均を取ったばらつきの指標です。値が大きいほど、データが平均の周りにまとまらず広く散らばっていることを意味します。正解は「データのばらつきの大きさを表す」です。
仕組み・頻出ポイント
- 平均との差をそのまま平均すると正負が打ち消し合うため、二乗してから平均します。
- 標準偏差は分散の平方根で、元データと同じ単位に戻して解釈しやすくしたものです。
- 機械学習では特徴量のスケール、ノイズの大きさ、モデルの不確実性を考える基礎になります。
G検定で覚えるべきこと
分散は「中心」ではなく「散らばり」です。平均が同じ2つのデータ群でも、分散が違えば安定性や予測の難しさは変わります。G検定では、平均・分散・標準偏差をセットで覚え、分散が大きいほど外れた値が多い、標準偏差は平方根、という関係を押さえてください。
他の選択肢の評価
- 選択肢1: 中心的な位置を表すのは平均値や中央値です。
- 選択肢2: 正解です。分散はばらつきを表します。
- 選択肢3: 同時確率は確率論の論点で、分散の定義ではありません。
- 選択肢4: 標本数はデータの個数であり、分散そのものではありません。
実務上の意味
統計の基本用語は、モデル評価やデータ前処理の判断にも直結します。数式だけでなく、値が大きいと何を意味するのか、どの前提で解釈できるのか、意思決定でどの誤りを避けるべきかを合わせて確認してください。
追加の確認観点
確認観点としては、分散が大きいほど予測や品質が不安定になりやすいという実務的な意味です。同じ平均でも分散が違えば、モデルの誤差、需要の変動、センサー値の安定性の評価は変わります。ばらつきを二乗で扱うため、大きく外れた値の影響を強く受ける点も覚えてください。
結論として、この問題では「用語の定義」だけでなく、どの前提で使えるのか、どの誤解を避けるべきか、実務では何を確認するのかまで結びつけて理解することが重要です。