この問題では、基本的な記述統計量である平均値と中央値の計算方法と、それらが持つ意味について理解を深めます。
平均値 (Mean) とは?
平均値(算術平均)は、データセット全体の値を代表する指標の一つで、全てのデータの値を合計し、データの総数で割ることで求められます。日常生活でも最もよく使われる「平均」です。
$\text{平均値} = \frac{\sum_{i=1}^{n} x_i}{n}$
ここで、$x_i$ は個々のデータ、$n$ はデータの総数を表します。
1. 平均値の計算
与えられたデータは $3, 5, 8, 10, 14$ です。
これらの合計は $3 + 5 + 8 + 10 + 14 = 40$ です。
データの個数は $5$ 個です。
したがって、平均値は:
$\text{平均値} = \frac{40}{5} = 8$
中央値 (Median) とは?
中央値は、データを大きさの順に並べたときに、ちょうど中央に位置する値です。データ全体のちょうど真ん中の値を見ることで、データ分布の中心的な傾向を捉えようとするものです。平均値とは異なり、極端な外れ値の影響を受けにくいという特徴があります。
- データの個数が奇数の場合:中央に位置する一つの値
- データの個数が偶数の場合:中央に位置する二つの値の平均値
2. 中央値の計算
与えられたデータ $3, 5, 8, 10, 14$ は、すでに小さい順に並んでいます。
データの個数は $5$ 個(奇数)です。この場合、中央値は小さい方から数えて $(\frac{5+1}{2}) = 3$ 番目の値となります。
したがって、中央値は $8$ です。
$\text{中央値} = 8$
平均値と中央値の使い分け
平均値と中央値はどちらもデータの中心傾向を示す代表値ですが、性質が異なります。どちらを用いるべきかは、データの分布や分析の目的によって変わります。
- 平均値が適している場合:データが対称的な分布(例:正規分布に近い形)をしており、外れ値の影響が少ない場合。全てのデータ値を考慮した中心傾向を見たい場合。
- 中央値が適している場合:データに外れ値(極端に大きい値や小さい値)が含まれる場合や、分布が歪んでいる(左右非対称な)場合。外れ値の影響を抑えて、より頑健な中心傾向を知りたい場合。例えば、所得の分布のように一部の非常に高い値に引っ張られやすいデータでは、平均値よりも中央値が実態をよく表すことがあります。
この問題のデータ $3, 5, 8, 10, 14$ は、比較的対称的に分布しており、目立った外れ値もありません。そのため、平均値と中央値が同じ $8$ という値になっています。
代表値について補足:
代表値には、平均値や中央値の他に、最頻値(モード)などがあります。
- 最頻値 (Mode): データの中で最も頻繁に出現する値。量的データだけでなく、質的データ(カテゴリデータ)に対しても使うことができます。
これらの代表値を適切に使い分けることで、データの特性をより深く理解することができます。
以上の計算から、平均値は8、中央値は8となります。