データを整理する：代表値と散らばり

Stage 1 — 第1章| 統計学基礎カリキュラム推定学習時間：40〜50分 | 難易度：★☆☆☆☆

この章で学ぶこと

「平均を取ればわかる」——そう思っていませんか？実はそれだけでは、データは半分しか語ってくれません。

この章では、データをひとことで要約する「代表値」と、データのばらつきを測る「散らばり」、この2つの視点を身につけます。2つがそろって、データの全体像がつかめます。

この章を終えると、こんなことができるようになります：

平均値・中央値・最頻値の使い分けができる
分散と標準偏差を手計算で求められる
「平均が同じでも、データが全然違う」理由を説明できる
変動係数を使って異なるデータのばらつきを比較できる
記述統計の問題を自信を持って解ける

1. なぜデータを「要約」するのか

500人の期末テストの点数があるとします。500個の数字を眺めても、何もわかりません。「全体的にどのくらいの点数だったか」「ばらつきはあるか」を把握するには、うまく要約（summarize）する必要があります。

これが記述統計学（Descriptive Statistics）の仕事です。データをあるがままに全部見せるのではなく、本質的な特徴を抜き出して伝える。

記述統計の主な仕事は大きく2つです：

視点	問いかけ	代表的な指標
中心（代表値）	データは全体的にどのくらい？	平均値、中央値、最頻値
散らばり	データはどれくらい広がっている？	分散、標準偏差、変動係数

2. 代表値：データの「真ん中」を捉える

関連教材（青の統計学）

統計学超入門（動画）

統計学基礎（動画）

【超入門】統計学とは？文系でもわかる『データを武器にする』ための第一歩（記事）

2.1 平均値（Mean）

最もおなじみの代表値です。

$\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i$

例） 5人のテスト点数：60, 70, 80, 90, 100

$\bar{x} = \frac{60+70+80+90+100}{5} = \frac{400}{5} = 80 \text{点}$

[図1] 数直線上の平均値

平均値の落とし穴：外れ値への弱さ

次のデータを見てください。

5人の年収（万円）：200, 250, 300, 350, 5000

$\bar{x} = \frac{200+250+300+350+5000}{5} = 1220 \text{万円}$

1人の富豪が入っただけで、平均が1220万円に跳ね上がりました。この集団の「典型的な年収」は1220万円でしょうか？そんなことはありませんよね。

このように、平均値は外れ値（異常に大きい・小さい値）の影響を強く受けるという弱点があります。

📘 専門的な補足：加重平均（Weighted Mean）

通常の平均は全データを等しく扱いますが、データに「重要度」や「度数」が異なる場合は加重平均を使います。

$\bar{x}_w = \frac{w_1 x_1 + w_2 x_2 + \cdots + w_n x_n}{w_1 + w_2 + \cdots + w_n}$

例）期末試験（配点60点）と中間試験（配点40点）の成績

期末：75点、中間：85点

単純平均：(75+85)/2 = 80点

加重平均：(75×60 + 85×40) / (60+40) = (4500+3400)/100 = 79点

度数分布表からの平均計算には、この加重平均の考え方が使われます。

2.2 中央値（Median）

データを小さい順に並べたとき、ちょうど真ん中にくる値です。

データ数が奇数のとき → 真ん中の1つ
データ数が偶数のとき → 真ん中の2つの平均

奇数の例） 200, 250, 300, 350, 5000 → 中央値 = 300万円

偶数の例） 200, 250, 300, 350, 5000, 6000 → 中央値 = (300 + 350) / 2 = 325万円

先ほどの年収データでは、平均1220万円より中央値300万円のほうが「典型的な年収」として納得感がありますよね。 中央値は外れ値の影響を受けにくいため、所得・不動産価格・資産額などでよく使われます。

[図2] 平均と中央値の比較（年収データ）

📘 専門的な補足：パーセンタイルと四分位数

中央値は「50パーセンタイル」とも呼ばれます。パーセンタイルとは「データ全体の何%がその値以下か」を示す指標です。

特によく使われるのが四分位数（Quartile）：

Q1（第1四分位数）：25パーセンタイル（下から25%の位置）

Q2（第2四分位数）：50パーセンタイル＝中央値

Q3（第3四分位数）：75パーセンタイル（下から75%の位置）

Q3 − Q1 を四分位範囲（IQR: Interquartile Range）といい、中央50%のデータの広がりを表します。外れ値検出の基準（IQR × 1.5ルール）にも使われます。これは次章のグラフ（箱ひげ図）で視覚化します。

2.3 最頻値（Mode）

データの中で最もよく出てくる値です。

例）アンケート「好きなスポーツ」の回答：野球(30人), サッカー(45人), バスケ(20人), テニス(15人), その他(10人)

→ 最頻値 = サッカー

最頻値は数値でなくてもよく、カテゴリーデータ（名義尺度）にも使えます。一方、平均や中央値は数値データにしか使えません。

[図3] 3つの代表値の使い分け

データの種類平均値中央値最頻値

数値データ（外れ値なし） ◎ ○ △

数値データ（外れ値あり） △ ◎ △

カテゴリーデータ ✕ △ ◎

3. 散らばり：データはどれくらい広がっているか

関連教材（青の統計学）

ローレンツ曲線とジニ係数（動画）

相関係数と共分散（動画）

変動係数とは？わかりやすく解説｜統計検定2級（記事）

代表値だけでは不十分なことを、例で確認しましょう。

クラスAの点数： 70, 75, 80, 85, 90（平均 = 80点） クラスBの点数： 40, 60, 80, 100, 120（平均 = 80点）

どちらも平均は80点。しかしデータの様子は全く違いますね。

[図4] 平均が同じでも散らばりが違う

3.1 偏差（Deviation）

各データが平均からどれくらい離れているかを示す値。

$\text{偏差} = x_i - \bar{x}$

クラスAの例（平均80）：

データ $x_i$	偏差 $x_i - \bar{x}$
70	−10
75	−5
80	0
85	+5
90	+10
合計	0

偏差の合計は必ずゼロになります（プラスとマイナスが打ち消し合う）。そのため、偏差をそのまま足してもばらつきを測れません。

3.2 分散（Variance）

偏差をそのまま足せないなら、2乗して足すのが解決策です。

$s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2$

クラスAの分散：

$s^2 = \frac{(-10)^2 + (-5)^2 + 0^2 + 5^2 + 10^2}{5} = \frac{100+25+0+25+100}{5} = 50$

📘 専門的な補足：なぜ「絶対値」ではなく「2乗」するのか？

偏差のプラスマイナスを消す方法として、絶対値をとる方法（$|x_i - \bar{x}|$ の平均 → 平均絶対偏差）も考えられます。ではなぜ2乗が選ばれたのでしょうか？

主な理由は2つです：

数学的な扱いやすさ：絶対値関数は $x=0$ で微分できませんが、2乗関数は至るところで微分可能です。微積分を使った最適化（最小二乗法など）と相性が抜群です。

大きなズレを強調できる：2乗することで、平均から大きく外れたデータに重みが乗ります。10点ズレたデータは5点ズレたデータの4倍（2²倍）の影響を持ちます。実用上、大きなズレをより重視したい場合に適しています。

ちなみに、絶対偏差を使う指標（MAE: Mean Absolute Error）は機械学習の誤差関数などでよく使われます。

📘 専門的な補足：標本分散と不偏分散

上の式では $n$ で割りましたが、統計では $n-1$ で割る不偏分散（Unbiased Variance）がよく使われます。

$s^2_{\text{不偏}} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$

なぜ $n-1$ なのか？手元のデータ（標本）から母集団全体のばらつきを推定する場合、$n$ で割ると系統的に「小さく見積もりすぎる」ことが数学的に証明されています。$n-1$ にすることで、その偏りが補正されます（この $n-1$ を自由度といいます）。

「母集団全体のばらつきを推定したい」場合は不偏分散（$n-1$）、手元のデータのばらつきをそのまま表したい場合は標本分散（$n$）を使います。文脈に応じて使い分けましょう。

3.3 標準偏差（Standard Deviation）

分散の単位は「点²（点の2乗）」になってしまい、直感的に掴みにくいです。そこで、分散の平方根（ルート）をとった値が標準偏差です。

$s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$

クラスAの標準偏差：

$s = \sqrt{50} \approx 7.07 \text{点}$

「平均80点で、標準偏差が7点」 → 多くのデータが 73〜87点の範囲に集まっているイメージです。

[図5] 標準偏差のイメージ（正規分布の場合）

3.4 変動係数（Coefficient of Variation）

「身長の標準偏差5cm」と「体重の標準偏差5kg」——どちらのばらつきが大きいでしょうか？単位が違うデータを単純に標準偏差で比較することはできません。

そこで使うのが変動係数（CV: Coefficient of Variation）です。

$CV = \frac{s}{\bar{x}} \times 100 \text{（%）}$

標準偏差を平均で割ることで、単位に依存しない相対的なばらつきを表します。

例）

	平均	標準偏差	変動係数
身長（cm）	170	8	4.7%
体重（kg）	65	10	15.4%

変動係数を見ると、体重（15.4%）のほうが身長（4.7%）より相対的にばらつきが大きいことがわかります。

⚠️ 注意：変動係数は、平均値が0に近いデータや、負の値を含むデータには使用できません。

4. 計算の手順まとめ

Step 1: 平均値 x̄ を求める
          Step 2: 各データの偏差 (xᵢ - x̄) を求める
          Step 3: 偏差を2乗 (xᵢ - x̄)² して、全部足してnで割る → 分散 s²
          Step 4: 分散の平方根をとる → 標準偏差 s
          Step 5: 必要なら s ÷ x̄ × 100 → 変動係数 CV

[図6] 計算フローチャート

5. 演習問題

問題1（代表値）

次の7人の月収（万円）のデータについて、平均値・中央値を求めてください。また、どちらが「典型的な月収」をより適切に表しているか、理由とともに答えてください。

$25, \; 28, \; 30, \; 32, \; 35, \; 38, \; 200$

💡 解答・解説を見る

平均値：

$\bar{x} = \frac{25+28+30+32+35+38+200}{7} = \frac{388}{7} \approx 55.4 \text{万円}$

中央値：

データはすでに昇順なので、7個の真ん中は4番目の値：

$\text{中央値} = 32 \text{万円}$

どちらが適切か：

中央値（32万円） が典型的な月収をより適切に表しています。

200万円という外れ値のせいで平均が55.4万円まで押し上げられており、7人中6人が平均を下回るという不自然な状態になっています。中央値は外れ値の影響を受けないため、「集団の真ん中」を正しく捉えられます。

問題2（分散・標準偏差）

クラスBの5人の点数：40, 60, 80, 100, 120（平均 = 80点）について、分散と標準偏差を求めてください。クラスAの標準偏差（≈7.07点）と比較し、何がわかるか説明してください。

💡 解答・解説を見る

各偏差と偏差の2乗：

データ $x_i$	偏差 $x_i - 80$	偏差の2乗
40	−40	1600
60	−20	400
80	0	0
100	+20	400
120	+40	1600
合計	0	4000

分散：

$s^2 = \frac{4000}{5} = 800$

標準偏差：

$s = \sqrt{800} = \sqrt{400 \times 2} = 20\sqrt{2} \approx 28.28 \text{点}$

クラスAとの比較：

	平均	標準偏差
クラスA	80点	≈ 7.07点
クラスB	80点	≈ 28.28点

平均は同じ80点ですが、クラスBの標準偏差はクラスAの約4倍。クラスBの点数は平均から大きく散らばっており、非常に「ばらついたクラス」であることがわかります。平均だけ見ると同じクラスのように見えますが、散らばりまで見ると全く異なる特性を持つことがわかります。

問題3（考察・変動係数）

2つの投資商品AとBの月次リターン（%）があります。

-商品A：2, 3, 4, 3, 3（平均 = 3%） -商品B：−10, 5, 12, 8, 0（平均 = 3%）

平均リターンは同じです。変動係数を使って2つを比較し、リスクを嫌う投資家はどちらを選ぶべきか答えてください。

💡 解答・解説を見る

商品Aの分散・標準偏差：

偏差：−1, 0, +1, 0, 0 偏差の2乗の合計：1 + 0 + 1 + 0 + 0 = 2

$s_A^2 = \frac{2}{5} = 0.4, \quad s_A = \sqrt{0.4} \approx 0.632\%$

$CV_A = \frac{0.632}{3} \times 100 \approx 21.1\%$

商品Bの分散・標準偏差：

偏差：−13, +2, +9, +5, −3 偏差の2乗：169, 4, 81, 25, 9　→ 合計 = 288

$s_B^2 = \frac{288}{5} = 57.6, \quad s_B = \sqrt{57.6} \approx 7.59\%$

$CV_B = \frac{7.59}{3} \times 100 \approx 253\%$

結論：

	平均リターン	標準偏差	変動係数
商品A	3%	0.63%	21.1%
商品B	3%	7.59%	253%

リスク（ばらつき）は商品Bが圧倒的に大きく、変動係数は約12倍。商品Bは−10%という大きな損失月もあり、リスクを嫌う投資家は商品Aを選ぶべきです。

このように、リターン（平均）が同じでもリスク（標準偏差・変動係数）が全く異なるケースは投資の世界では日常的です。「期待値だけで判断しない」ことが統計的思考の基本です。

まとめ

指標	意味	強み	弱み
平均値	データの重心	計算しやすい・数学的に扱いやすい	外れ値に弱い
中央値	データのど真ん中（50%点）	外れ値に強い	全データを使わない
最頻値	最もよく出る値	カテゴリにも使える	データ型が限られる
分散	散らばりの大きさ（2乗単位）	数学的に扱いやすい・微分可能	単位が直感的でない
標準偏差	散らばりの大きさ（元の単位）	直感的・正規分布と相性◎	外れ値に弱い
変動係数	相対的なばらつき（%）	単位が違うデータを比較できる	平均≒0では使えない

この章のキーメッセージ： データを見るときは、「中心はどこか」と「どれくらい散らばっているか」の2つを必ずセットで確認する習慣をつけましょう。平均だけ見てわかった気になると、大事な情報を見落とします。

次の章へ

代表値と散らばりを学んだ次のステップは、データをグラフで可視化することです。ヒストグラム・箱ひげ図・散布図を使うと、数値だけでは見えなかったデータの「形」が浮かび上がります。

→ 次: データを視覚化する：ヒストグラムと箱ひげ図

データの種類	平均値	中央値	最頻値
数値データ（外れ値なし）	◎	○	△
数値データ（外れ値あり）	△	◎	△
カテゴリーデータ	✕	△	◎