青の統計学-DS Playground-

データを整理する:代表値と散らばり

Stage 1 — 第1章| 統計学基礎カリキュラム 推定学習時間:40〜50分 | 難易度:★☆☆☆☆


この章で学ぶこと

「平均を取ればわかる」——そう思っていませんか? 実はそれだけでは、データは半分しか語ってくれません。

この章では、データをひとことで要約する「代表値」と、データのばらつきを測る「散らばり」、この2つの視点を身につけます。2つがそろって、データの全体像がつかめます。

この章を終えると、こんなことができるようになります:

  • 平均値・中央値・最頻値の使い分けができる
  • 分散と標準偏差を手計算で求められる
  • 「平均が同じでも、データが全然違う」理由を説明できる
  • 変動係数を使って異なるデータのばらつきを比較できる
  • 記述統計の問題を自信を持って解ける

1. なぜデータを「要約」するのか

500人の期末テストの点数があるとします。500個の数字を眺めても、何もわかりません。 「全体的にどのくらいの点数だったか」「ばらつきはあるか」を把握するには、うまく要約(summarize)する必要があります。

これが記述統計学(Descriptive Statistics)の仕事です。 データをあるがままに全部見せるのではなく、本質的な特徴を抜き出して伝える。

記述統計の主な仕事は大きく2つです:

視点 問いかけ 代表的な指標
中心(代表値) データは全体的にどのくらい? 平均値、中央値、最頻値
散らばり データはどれくらい広がっている? 分散、標準偏差、変動係数

2. 代表値:データの「真ん中」を捉える

関連教材(青の統計学)

2.1 平均値(Mean)

最もおなじみの代表値です。

$\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i$

例) 5人のテスト点数:60, 70, 80, 90, 100

$\bar{x} = \frac{60+70+80+90+100}{5} = \frac{400}{5} = 80 \text{点}$


[図1] 数直線上の平均値 平均は釣り合いの点(重心)


平均値の落とし穴:外れ値への弱さ

次のデータを見てください。

5人の年収(万円):200, 250, 300, 350, 5000

$\bar{x} = \frac{200+250+300+350+5000}{5} = 1220 \text{万円}$

1人の富豪が入っただけで、平均が1220万円に跳ね上がりました。 この集団の「典型的な年収」は1220万円でしょうか? そんなことはありませんよね。

このように、平均値は外れ値(異常に大きい・小さい値)の影響を強く受けるという弱点があります。


📘 専門的な補足:加重平均(Weighted Mean)

通常の平均は全データを等しく扱いますが、データに「重要度」や「度数」が異なる場合は加重平均を使います。

$\bar{x}_w = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}$

例)期末試験(配点60点)と中間試験(配点40点)の成績

  • 期末:75点、中間:85点
  • 単純平均:(75+85)/2 = 80点
  • 加重平均:(75×60 + 85×40) / (60+40) = (4500+3400)/100 = 79点

度数分布表からの平均計算には、この加重平均の考え方が使われます。


2.2 中央値(Median)

データを小さい順に並べたとき、ちょうど真ん中にくる値です。

  • データ数が奇数のとき → 真ん中の1つ
  • データ数が偶数のとき → 真ん中の2つの平均

奇数の例) 200, 250, 300, 350, 5000 → 中央値 = 300万円

偶数の例) 200, 250, 300, 350, 5000, 6000 → 中央値 = (300 + 350) / 2 = 325万円

先ほどの年収データでは、平均1220万円より中央値300万円のほうが「典型的な年収」として納得感がありますよね。 中央値は外れ値の影響を受けにくいため、所得・不動産価格・資産額などでよく使われます。


[図2] 平均と中央値の比較(年収データ) 外れ値が平均を歪める


📘 専門的な補足:パーセンタイルと四分位数

中央値は「50パーセンタイル」とも呼ばれます。パーセンタイルとは「データ全体の何%がその値以下か」を示す指標です。

特によく使われるのが四分位数(Quartile)

  • Q1(第1四分位数):25パーセンタイル(下から25%の位置)
  • Q2(第2四分位数):50パーセンタイル=中央値
  • Q3(第3四分位数):75パーセンタイル(下から75%の位置)

Q3 − Q1 を四分位範囲(IQR: Interquartile Range)といい、中央50%のデータの広がりを表します。外れ値検出の基準(IQR × 1.5ルール)にも使われます。これは次章のグラフ(箱ひげ図)で視覚化します。


2.3 最頻値(Mode)

データの中で最もよく出てくる値です。

例) アンケート「好きなスポーツ」の回答: 野球(30人), サッカー(45人), バスケ(20人), テニス(15人), その他(10人)

→ 最頻値 = サッカー

最頻値は数値でなくてもよく、カテゴリーデータ(名義尺度)にも使えます。 一方、平均や中央値は数値データにしか使えません。


[図3] 3つの代表値の使い分け

データの種類 平均値 中央値 最頻値
数値データ(外れ値なし)
数値データ(外れ値あり)
カテゴリーデータ

3. 散らばり:データはどれくらい広がっているか

関連教材(青の統計学)

代表値だけでは不十分なことを、例で確認しましょう。

クラスAの点数: 70, 75, 80, 85, 90(平均 = 80点) クラスBの点数: 40, 60, 80, 100, 120(平均 = 80点)

どちらも平均は80点。しかしデータの様子は全く違いますね。


[図4] 平均が同じでも散らばりが違う 同じ平均でも散らばりが違う


3.1 偏差(Deviation)

各データが平均からどれくらい離れているかを示す値。

$\text{偏差} = x_i - \bar{x}$

クラスAの例(平均80):

データ $x_i$ 偏差 $x_i - \bar{x}$
70 −10
75 −5
80 0
85 +5
90 +10
合計 0

偏差の合計は必ずゼロになります(プラスとマイナスが打ち消し合う)。 そのため、偏差をそのまま足してもばらつきを測れません。

3.2 分散(Variance)

偏差をそのまま足せないなら、2乗して足すのが解決策です。

$s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$

クラスAの分散:

$s^2 = \frac{(-10)^2 + (-5)^2 + 0^2 + 5^2 + 10^2}{5} = \frac{100+25+0+25+100}{5} = 50$


📘 専門的な補足:なぜ「絶対値」ではなく「2乗」するのか?

偏差のプラスマイナスを消す方法として、絶対値をとる方法($|x_i - \bar{x}|$ の平均 → 平均絶対偏差)も考えられます。 ではなぜ2乗が選ばれたのでしょうか?

主な理由は2つです:

  1. 数学的な扱いやすさ:絶対値関数は $x=0$ で微分できませんが、2乗関数は至るところで微分可能です。微積分を使った最適化(最小二乗法など)と相性が抜群です。
  2. 大きなズレを強調できる:2乗することで、平均から大きく外れたデータに重みが乗ります。10点ズレたデータは5点ズレたデータの4倍(2²倍)の影響を持ちます。実用上、大きなズレをより重視したい場合に適しています。

ちなみに、絶対偏差を使う指標(MAE: Mean Absolute Error)は機械学習の誤差関数などでよく使われます。


📘 専門的な補足:標本分散と不偏分散

上の式では $n$ で割りましたが、統計では $n-1$ で割る不偏分散(Unbiased Variance)がよく使われます。

$s^2_{\text{不偏}} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$

なぜ $n-1$ なのか? 手元のデータ(標本)から母集団全体のばらつきを推定する場合、$n$ で割ると系統的に「小さく見積もりすぎる」ことが数学的に証明されています。$n-1$ にすることで、その偏りが補正されます(この $n-1$ を自由度といいます)。

「母集団全体のばらつきを推定したい」場合は不偏分散($n-1$)、手元のデータのばらつきをそのまま表したい場合は標本分散($n$)を使います。文脈に応じて使い分けましょう。


3.3 標準偏差(Standard Deviation)

分散の単位は「点²(点の2乗)」になってしまい、直感的に掴みにくいです。 そこで、分散の平方根(ルート)をとった値が標準偏差です。

$s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$

クラスAの標準偏差:

$s = \sqrt{50} \approx 7.07 \text{点}$

「平均80点で、標準偏差が7点」 → 多くのデータが 73〜87点の範囲に集まっているイメージです。


[図5] 標準偏差のイメージ(正規分布の場合) 正規分布と標準偏差の範囲


3.4 変動係数(Coefficient of Variation)

「身長の標準偏差5cm」と「体重の標準偏差5kg」——どちらのばらつきが大きいでしょうか? 単位が違うデータを単純に標準偏差で比較することはできません。

そこで使うのが変動係数(CV: Coefficient of Variation)です。

$CV = \frac{s}{\bar{x}} \times 100 \text{(%)}$

標準偏差を平均で割ることで、単位に依存しない相対的なばらつきを表します。

例)

平均 標準偏差 変動係数
身長(cm) 170 8 4.7%
体重(kg) 65 10 15.4%

変動係数を見ると、体重(15.4%)のほうが身長(4.7%)より相対的にばらつきが大きいことがわかります。

⚠️ 注意:変動係数は、平均値が0に近いデータや、負の値を含むデータには使用できません。


4. 計算の手順まとめ

Step 1: 平均値 x̄ を求める
          Step 2: 各データの偏差 (xᵢ - x̄) を求める
          Step 3: 偏差を2乗 (xᵢ - x̄)² して、全部足してnで割る → 分散 s²
          Step 4: 分散の平方根をとる → 標準偏差 s
          Step 5: 必要なら s ÷ x̄ × 100 → 変動係数 CV
          

[図6] 計算フローチャート 分散の計算フローチャート


5. 演習問題

問題1(代表値)

次の7人の月収(万円)のデータについて、平均値・中央値を求めてください。また、どちらが「典型的な月収」をより適切に表しているか、理由とともに答えてください。

$25, \; 28, \; 30, \; 32, \; 35, \; 38, \; 200$

💡 解答・解説を見る

平均値:

$\bar{x} = \frac{25+28+30+32+35+38+200}{7} = \frac{388}{7} \approx 55.4 \text{万円}$

中央値:

データはすでに昇順なので、7個の真ん中は4番目の値:

$\text{中央値} = 32 \text{万円}$

どちらが適切か:

中央値(32万円) が典型的な月収をより適切に表しています。

200万円という外れ値のせいで平均が55.4万円まで押し上げられており、7人中6人が平均を下回るという不自然な状態になっています。 中央値は外れ値の影響を受けないため、「集団の真ん中」を正しく捉えられます。


問題2(分散・標準偏差)

クラスBの5人の点数:40, 60, 80, 100, 120(平均 = 80点)について、分散と標準偏差を求めてください。クラスAの標準偏差(≈7.07点)と比較し、何がわかるか説明してください。

💡 解答・解説を見る

各偏差と偏差の2乗:

データ $x_i$ 偏差 $x_i - 80$ 偏差の2乗
40 −40 1600
60 −20 400
80 0 0
100 +20 400
120 +40 1600
合計 0 4000

分散:

$s^2 = \frac{4000}{5} = 800$

標準偏差:

$s = \sqrt{800} = \sqrt{400 \times 2} = 20\sqrt{2} \approx 28.28 \text{点}$

クラスAとの比較:

平均 標準偏差
クラスA 80点 ≈ 7.07点
クラスB 80点 ≈ 28.28点

平均は同じ80点ですが、クラスBの標準偏差はクラスAの約4倍。クラスBの点数は平均から大きく散らばっており、非常に「ばらついたクラス」であることがわかります。平均だけ見ると同じクラスのように見えますが、散らばりまで見ると全く異なる特性を持つことがわかります。


問題3(考察・変動係数)

2つの投資商品AとBの月次リターン(%)があります。

-商品A:2, 3, 4, 3, 3(平均 = 3%) -商品B:−10, 5, 12, 8, 0(平均 = 3%)

平均リターンは同じです。変動係数を使って2つを比較し、リスクを嫌う投資家はどちらを選ぶべきか答えてください。

💡 解答・解説を見る

商品Aの分散・標準偏差:

偏差:−1, 0, +1, 0, 0 偏差の2乗の合計:1 + 0 + 1 + 0 + 0 = 2

$s_A^2 = \frac{2}{5} = 0.4, \quad s_A = \sqrt{0.4} \approx 0.632\%$

$CV_A = \frac{0.632}{3} \times 100 \approx 21.1\%$

商品Bの分散・標準偏差:

偏差:−13, +2, +9, +5, −3 偏差の2乗:169, 4, 81, 25, 9 → 合計 = 288

$s_B^2 = \frac{288}{5} = 57.6, \quad s_B = \sqrt{57.6} \approx 7.59\%$

$CV_B = \frac{7.59}{3} \times 100 \approx 253\%$

結論:

平均リターン 標準偏差 変動係数
商品A 3% 0.63% 21.1%
商品B 3% 7.59% 253%

リスク(ばらつき)は商品Bが圧倒的に大きく、変動係数は約12倍。商品Bは−10%という大きな損失月もあり、リスクを嫌う投資家は商品Aを選ぶべきです

このように、リターン(平均)が同じでもリスク(標準偏差・変動係数)が全く異なるケースは投資の世界では日常的です。「期待値だけで判断しない」ことが統計的思考の基本です。


まとめ

指標 意味 強み 弱み
平均値 データの重心 計算しやすい・数学的に扱いやすい 外れ値に弱い
中央値 データのど真ん中(50%点) 外れ値に強い 全データを使わない
最頻値 最もよく出る値 カテゴリにも使える データ型が限られる
分散 散らばりの大きさ(2乗単位) 数学的に扱いやすい・微分可能 単位が直感的でない
標準偏差 散らばりの大きさ(元の単位) 直感的・正規分布と相性◎ 外れ値に弱い
変動係数 相対的なばらつき(%) 単位が違うデータを比較できる 平均≒0では使えない

この章のキーメッセージ: データを見るときは、「中心はどこか」と「どれくらい散らばっているか」の2つを必ずセットで確認する習慣をつけましょう。平均だけ見てわかった気になると、大事な情報を見落とします。


次の章へ

代表値と散らばりを学んだ次のステップは、データをグラフで可視化することです。 ヒストグラム・箱ひげ図・散布図を使うと、数値だけでは見えなかったデータの「形」が浮かび上がります。

次: データを視覚化する:ヒストグラムと箱ひげ図