データを視覚化する：ヒストグラムと箱ひげ図

Stage 1 — 第2章| 統計学基礎カリキュラム推定学習時間：40〜50分 | 難易度：★☆☆☆☆

この章で学ぶこと

前章では、データを数値で要約する「代表値」と「散らばり」を学びました。しかし数値だけでは見えてこないものがあります——データの「形」です。

この章では、データを視覚化してその形を読み取る技術を身につけます。

この章を終えると、こんなことができるようになります：

度数分布表を作り、データを区間に整理できる
ヒストグラムを読んで、分布の形（対称・右寄り・左寄り）を判断できる
箱ひげ図から中央値・四分位数・外れ値を読み取れる
「ヒストグラムを使うべき場面」と「箱ひげ図を使うべき場面」を使い分けられる
グラフ読み取り問題を自信を持って解ける

1. なぜグラフで見るのか

次の2つのデータを見てください。

データX： 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7 データY： 1, 1, 2, 4, 4, 4, 4, 4, 4, 4, 6, 8, 8, 9, 9

どちらも平均 ≈ 4.3、標準偏差 ≈ 1.7 ですが、性質は全く違います。 数値だけでは気づけない違いを、グラフは一瞬で見せてくれます。

[図1] データXとYの比較

2. 度数分布表：グラフの前に数値を整理する

ヒストグラムを作る前に、まずデータを区間に分けて集計する必要があります。これが度数分布表です。

例） 30人のテスト点数（0〜100点）を整理する

階級（点）	度数（人）	相対度数	累積相対度数
40〜50未満	3	0.10	0.10
50〜60未満	5	0.17	0.27
60〜70未満	9	0.30	0.57
70〜80未満	8	0.27	0.83
80〜90未満	4	0.13	0.97
90〜100以下	1	0.03	1.00
合計	30	1.00	—

用語の整理：

階級（class）：データを分けた区間。「60〜70未満」のような範囲
階級幅：各区間の幅。上の例では10点
度数（frequency）：その階級に入るデータの個数
相対度数：度数 ÷ 全体の個数。全て足すと1になる
累積相対度数：その階級までの相対度数を全て足した値（0〜1の間）

📘 専門的な補足：階級幅の選び方

階級幅を変えると、グラフの見え方が大きく変わります。

幅が広すぎる：細かい特徴が消えて、粗くなる

幅が狭すぎる：凸凹が多くなり、傾向が見えにくい

よく使われる目安として、スタージェスの公式があります：

$k = 1 + \log_2 n \approx 1 + 3.32 \log_{10} n$

ここで $k$ は階級数、$n$ はデータの個数。$n = 30$ なら $k \approx 6$ 程度が目安です。ただし、これはあくまで参考値。データの性質や伝えたいことに応じて調整します。

3. ヒストグラム：分布の「形」を見る

関連教材（青の統計学）

統計学超入門（動画）

確率分布の基礎（動画）

【統計検定2級】歪度と尖度をわかりやすく解説|python（記事）

度数分布表をグラフにしたものがヒストグラム（histogram）です。横軸に階級、縦軸に度数（または相対度数）をとり、棒を並べて描きます。

棒グラフとの決定的な違い：棒同士をくっつける

棒グラフはカテゴリ間に隙間があります（「野球・サッカー・バスケ」は別物だから）。ヒストグラムは連続したデータなので、棒をくっつけて描きます。

[図2] 30人のテスト点数のヒストグラム

3.1 分布の形を読む

ヒストグラムを見たとき、最初に確認すべきは「形」です。

[図3] 代表的な分布の形

読み取りのポイント：

特徴	何を示すか	代表値への影響
ピークが1つ・左右対称	正規分布に近い	平均 ≈ 中央値 ≈ 最頻値
右に尾を引く（正の歪み）	高い値の外れ値あり	平均 > 中央値
左に尾を引く（負の歪み）	低い値の外れ値あり	平均 < 中央値
ピークが2つ（双峰型）	2つの集団が混在	平均が「中間」になり、実態を反映しない

📘 専門的な補足：歪度（Skewness）と尖度（Kurtosis）

分布の形を数値で表す指標もあります。

歪度（skewness）：分布の左右の非対称さを測る

歪度 > 0：右に尾を引く（正の歪み）

歪度 = 0：左右対称

歪度 < 0：左に尾を引く（負の歪み）

尖度（kurtosis）：分布の「とがり」を測る

正規分布の尖度を0（または3）として相対的に定義

尖度が大きい：ピークが鋭く、裾が重い

尖度が小さい：ピークが平らな分布

実務・試験ともに「歪みの方向を視覚的に読み取る」スキルがよく問われます。歪度・尖度の数値計算は後の章で扱います。

4. 箱ひげ図：5つの数値でデータを要約する

関連教材（青の統計学）

統計学基礎（動画）

ローレンツ曲線とジニ係数（動画）

変動係数とは？わかりやすく解説｜統計検定2級（記事）

箱ひげ図（box plot / box-and-whisker plot）は、5つの数値でデータの分布を表現します。

5数要約（Five-number summary）：

数値	意味
最小値	データの最小値（外れ値を除く場合あり）
Q1（第1四分位数）	下から25%の位置
Q2（中央値）	下から50%の位置
Q3（第3四分位数）	下から75%の位置
最大値	データの最大値（外れ値を除く場合あり）

[図4] 箱ひげ図の構造

4.1 外れ値の検出：1.5 × IQR ルール

IQR（四分位範囲）= Q3 − Q1 を使って、外れ値の基準を決めます。

$\text{下限} = Q1 - 1.5 \times IQR$ $\text{上限} = Q3 + 1.5 \times IQR$

この範囲を超えるデータは外れ値（outlier）として、点（○）で別描きします。ひげは、外れ値を除いた最大値・最小値まで伸ばします。

例）データ：10, 12, 14, 15, 16, 17, 18, 20, 22, 50

Q1 = 13, Q2 = 16.5, Q3 = 19, IQR = 6
下限 = 13 − 9 = 4, 上限 = 19 + 9 = 28
50 は上限28を超えるので外れ値
ひげの上端は22（外れ値を除いた最大値）

[図5] 外れ値ありの箱ひげ図

4.2 箱ひげ図でグループを比較する

箱ひげ図の最大の強みは、複数のグループを並べて一気に比較できる点です。

[図6] クラスA・B・Cの点数比較（箱ひげ図）

クラスA：中央値が高く、ばらつきも中程度

クラスB：中央値が低く、ばらつきが大きい（幅が広い箱）

クラスC：中央値が高く、箱が右に偏っている。外れ値あり

5. ヒストグラムと箱ひげ図の使い分け

どちらも量的データの分布を見るグラフですが、得意な場面が違います。

	ヒストグラム	箱ひげ図
分布の形（歪み・双峰）	◎	△
外れ値の可視化	△	◎
複数グループの比較	△（並べると見づらい）	◎
5数要約の視覚化	△	◎
データの密度感	◎	△

使い分けの基準： -1グループの分布の形を詳しく見たい→ ヒストグラム -外れ値を検出したい / グループ間を比較したい→ 箱ひげ図

📘 専門的な補足：茎葉図（Stem-and-Leaf Plot）

ヒストグラムと似た目的を持ちながら、元のデータ値を保持する図が茎葉図です。

例）テスト点数：43, 55, 61, 68, 72, 74, 75, 81, 88, 93
茎 | 葉
           4 | 3
           5 | 5
           6 | 1 8
           7 | 2 4 5
           8 | 1 8
           9 | 3
          
横にすると分布の形がヒストグラムと同じように見え、かつ元の値も読み取れます。データ数が少ない（20〜50程度）場合に特に有用です。

📘 専門的な補足：正規分布と分布の形の対応

統計学で最も重要な分布は正規分布（Normal Distribution）です。ヒストグラムが「左右対称の釣り鐘型」に近い分布は正規分布に近く、多くの統計的手法（t検定・信頼区間など）の前提条件を満たしやすいです。

「正規性の確認」は実務でも重要なステップです。視覚的にはヒストグラムで確認し、より厳密には正規確率プロット（Q-Qプロット）や統計的検定（Shapiro-Wilk検定など）を使います。これらは推定・検定の章で改めて扱います。

6. 演習問題

問題1（度数分布表の作成）

以下の20人の試験点数から度数分布表を完成させ、最も度数が大きい階級を答えてください。階級幅は10点（40〜50未満、50〜60未満、…、90〜100以下）で作成してください。

$55, \; 62, \; 73, \; 48, \; 81, \; 66, \; 59, \; 70, \; 77, \; 83,$ $92, \; 61, \; 74, \; 68, \; 55, \; 79, \; 85, \; 63, \; 72, \; 58$

💡 解答・解説を見る

各点数を階級に振り分けると：

階級（点）	該当データ	度数	相対度数
40〜50未満	48	1	0.05
50〜60未満	55, 59, 55, 58	4	0.20
60〜70未満	62, 66, 61, 68, 63	5	0.25
70〜80未満	73, 70, 77, 74, 79, 72	6	0.30
80〜90未満	81, 83, 85	3	0.15
90〜100以下	92	1	0.05
合計	—	20	1.00

最も度数が大きい階級：70〜80未満（6人）

相対度数を見ると、60〜79点の2つの階級で全体の55%を占めており、データの中心がこのあたりにあることがわかります。

問題2（ヒストグラムの読み取り）

あるヒストグラムを読み取ったところ、次のような分布でした。

度数
           8 |    ██
           7 |    ████
           6 | ████████
           5 | ████████
           4 | ██████████
           3 | ████████████
           2 | ██████████████
           1 | ████████████████
             +--+--+--+--+--+--+--+
               0  2  4  6  8  10 12  (値)

（1）この分布の形を「正の歪み・負の歪み・対称」で答えてください。（2）平均値と中央値のどちらが大きいか、理由とともに答えてください。

💡 解答・解説を見る

（1）分布の形：正の歪み（右裾が長い）

左側（小さい値）に度数が集中しており、右側（大きい値）に向かって度数が減りながら裾を引いています。これを「正の歪み（right-skewed）」と呼びます。

（2）平均値＞中央値

正の歪みの分布では、大きい値の外れ値が平均を右（大きい方）へ引っ張ります。一方、中央値は順位で決まるため外れ値の影響を受けにくく、より左（小さい側）に位置します。

$\text{正の歪み} \Rightarrow \text{最頻値} < \text{中央値} < \text{平均値}$

年収・資産額・医療費など、現実世界の経済データにはこのような右裾の長い分布が多く見られます。

問題3（箱ひげ図の読み取りと比較）

2つのクラスの試験点数について、箱ひげ図から次の5数要約が読み取れました。

	最小値	Q1	中央値	Q3	最大値
クラスA	50	62	72	80	95
クラスB	30	55	70	85	98

（1）各クラスのIQRを求めてください。（2）「1.5 × IQRルール」を使って、クラスBで30点が外れ値かどうか判定してください。（3）クラスAとクラスBのどちらのほうが「ばらつきが大きい」といえるか、IQRを根拠に答えてください。

💡 解答・解説を見る

（1）各クラスのIQR：

$IQR_A = Q3_A - Q1_A = 80 - 62 = 18$ $IQR_B = Q3_B - Q1_B = 85 - 55 = 30$

（2）クラスBの30点が外れ値かどうか：

$\text{下限} = Q1_B - 1.5 \times IQR_B = 55 - 1.5 \times 30 = 55 - 45 = 10$

30点 > 10点なので、下限（10点）を超えていない → 外れ値ではない

ひげは最小値30点まで伸びます。

（3）ばらつきの比較：

$IQR_A = 18 \quad < \quad IQR_B = 30$

クラスBのほうがばらつきが大きい。

IQRは中央50%のデータの広がりを示します。クラスBのIQR（30点）はクラスA（18点）より大きく、中間層の点数のばらつきが大きいことを意味します。

補足：中央値はA（72点）とB（70点）でほぼ同じですが、IQRに大きな差があります。「平均（または中央値）だけで比較しない」ことが重要です。

まとめ

グラフ	何を見るか	強み
度数分布表	区間ごとの集計	数値として正確に把握できる
ヒストグラム	分布の形・ピーク・歪み	「形」を視覚的に把握できる
箱ひげ図	5数要約・外れ値・グループ比較	複数グループを一度に比較できる

この章のキーメッセージ： 数値（平均・標準偏差）とグラフ（ヒストグラム・箱ひげ図）は補完関係にあります。どちらか一方だけでは全体像は見えません。データを見るとき、「まずグラフで形を確認してから数値で詳細を確認する」流れを習慣にしましょう。

次の章へ

記述統計の数値と可視化を学んだ次のステップは、「どのようにデータを収集するか」です。どんなに優れた分析も、収集方法が偏っていれば結論は信頼できません。

→ 次: データの収集とサンプリング：バイアスのない調査設計