青の統計学-DS Playground-

データを視覚化する:ヒストグラムと箱ひげ図

Stage 1 — 第2章| 統計学基礎カリキュラム 推定学習時間:40〜50分 | 難易度:★☆☆☆☆


この章で学ぶこと

前章では、データを数値で要約する「代表値」と「散らばり」を学びました。 しかし数値だけでは見えてこないものがあります——データの「形」です。

この章では、データを視覚化してその形を読み取る技術を身につけます。

この章を終えると、こんなことができるようになります:

  • 度数分布表を作り、データを区間に整理できる
  • ヒストグラムを読んで、分布の形(対称・右寄り・左寄り)を判断できる
  • 箱ひげ図から中央値・四分位数・外れ値を読み取れる
  • 「ヒストグラムを使うべき場面」と「箱ひげ図を使うべき場面」を使い分けられる
  • グラフ読み取り問題を自信を持って解ける

1. なぜグラフで見るのか

次の2つのデータを見てください。

データX: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7 データY: 1, 1, 2, 4, 4, 4, 4, 4, 4, 4, 6, 8, 8, 9, 9

どちらも平均 ≈ 4.3、標準偏差 ≈ 1.7 ですが、性質は全く違います。 数値だけでは気づけない違いを、グラフは一瞬で見せてくれます。


[図1] データXとYの比較 同じ統計量でも分布形は異なる


2. 度数分布表:グラフの前に数値を整理する

ヒストグラムを作る前に、まずデータを区間に分けて集計する必要があります。これが度数分布表です。

例) 30人のテスト点数(0〜100点)を整理する

階級(点) 度数(人) 相対度数 累積相対度数
40〜50未満 3 0.10 0.10
50〜60未満 5 0.17 0.27
60〜70未満 9 0.30 0.57
70〜80未満 8 0.27 0.83
80〜90未満 4 0.13 0.97
90〜100以下 1 0.03 1.00
合計 30 1.00

用語の整理:

  • 階級(class):データを分けた区間。「60〜70未満」のような範囲
  • 階級幅:各区間の幅。上の例では10点
  • 度数(frequency):その階級に入るデータの個数
  • 相対度数:度数 ÷ 全体の個数。全て足すと1になる
  • 累積相対度数:その階級までの相対度数を全て足した値(0〜1の間)

📘 専門的な補足:階級幅の選び方

階級幅を変えると、グラフの見え方が大きく変わります。

  • 幅が広すぎる:細かい特徴が消えて、粗くなる
  • 幅が狭すぎる:凸凹が多くなり、傾向が見えにくい

よく使われる目安として、スタージェスの公式があります:

$k = 1 + \log_2 n \approx 1 + 3.32 \log_{10} n$

ここで $k$ は階級数、$n$ はデータの個数。$n = 30$ なら $k \approx 6$ 程度が目安です。 ただし、これはあくまで参考値。データの性質や伝えたいことに応じて調整します。


3. ヒストグラム:分布の「形」を見る

関連教材(青の統計学)

度数分布表をグラフにしたものがヒストグラム(histogram)です。 横軸に階級、縦軸に度数(または相対度数)をとり、棒を並べて描きます。

棒グラフとの決定的な違い:棒同士をくっつける

棒グラフはカテゴリ間に隙間があります(「野球・サッカー・バスケ」は別物だから)。 ヒストグラムは連続したデータなので、棒をくっつけて描きます。


[図2] 30人のテスト点数のヒストグラム ヒストグラムの例(テスト点数)


3.1 分布の形を読む

ヒストグラムを見たとき、最初に確認すべきは「形」です。


[図3] 代表的な分布の形 分布の歪み(スキュー)

読み取りのポイント:

特徴 何を示すか 代表値への影響
ピークが1つ・左右対称 正規分布に近い 平均 ≈ 中央値 ≈ 最頻値
右に尾を引く(正の歪み) 高い値の外れ値あり 平均 > 中央値
左に尾を引く(負の歪み) 低い値の外れ値あり 平均 < 中央値
ピークが2つ(双峰型) 2つの集団が混在 平均が「中間」になり、実態を反映しない

📘 専門的な補足:歪度(Skewness)と尖度(Kurtosis)

分布の形を数値で表す指標もあります。

歪度(skewness):分布の左右の非対称さを測る

  • 歪度 > 0:右に尾を引く(正の歪み)
  • 歪度 = 0:左右対称
  • 歪度 < 0:左に尾を引く(負の歪み)

尖度(kurtosis):分布の「とがり」を測る

  • 正規分布の尖度を0(または3)として相対的に定義
  • 尖度が大きい:ピークが鋭く、裾が重い
  • 尖度が小さい:ピークが平らな分布

実務・試験ともに「歪みの方向を視覚的に読み取る」スキルがよく問われます。歪度・尖度の数値計算は後の章で扱います。


4. 箱ひげ図:5つの数値でデータを要約する

関連教材(青の統計学)

箱ひげ図(box plot / box-and-whisker plot)は、5つの数値でデータの分布を表現します。

5数要約(Five-number summary):

数値 意味
最小値 データの最小値(外れ値を除く場合あり)
Q1(第1四分位数) 下から25%の位置
Q2(中央値) 下から50%の位置
Q3(第3四分位数) 下から75%の位置
最大値 データの最大値(外れ値を除く場合あり)

[図4] 箱ひげ図の構造 箱ひげ図の各部位

4.1 外れ値の検出:1.5 × IQR ルール

IQR(四分位範囲)= Q3 − Q1 を使って、外れ値の基準を決めます。

$\text{下限} = Q1 - 1.5 \times IQR$ $\text{上限} = Q3 + 1.5 \times IQR$

この範囲を超えるデータは外れ値(outlier)として、点(○)で別描きします。 ひげは、外れ値を除いた最大値・最小値まで伸ばします。

例) データ:10, 12, 14, 15, 16, 17, 18, 20, 22, 50

  • Q1 = 13, Q2 = 16.5, Q3 = 19, IQR = 6
  • 下限 = 13 − 9 = 4, 上限 = 19 + 9 = 28
  • 50 は上限28を超えるので外れ値
  • ひげの上端は22(外れ値を除いた最大値)

[図5] 外れ値ありの箱ひげ図 箱ひげ図の具体例


4.2 箱ひげ図でグループを比較する

箱ひげ図の最大の強みは、複数のグループを並べて一気に比較できる点です。


[図6] クラスA・B・Cの点数比較(箱ひげ図) 3クラスの比較

  • クラスA:中央値が高く、ばらつきも中程度
  • クラスB:中央値が低く、ばらつきが大きい(幅が広い箱)
  • クラスC:中央値が高く、箱が右に偏っている。外れ値あり

5. ヒストグラムと箱ひげ図の使い分け

どちらも量的データの分布を見るグラフですが、得意な場面が違います。

ヒストグラム 箱ひげ図
分布の形(歪み・双峰)
外れ値の可視化
複数グループの比較 △(並べると見づらい)
5数要約の視覚化
データの密度感

使い分けの基準: -1グループの分布の形を詳しく見たい→ ヒストグラム -外れ値を検出したい / グループ間を比較したい→ 箱ひげ図


📘 専門的な補足:茎葉図(Stem-and-Leaf Plot)

ヒストグラムと似た目的を持ちながら、元のデータ値を保持する図が茎葉図です。

例)テスト点数:43, 55, 61, 68, 72, 74, 75, 81, 88, 93

茎 | 葉
           4 | 3
           5 | 5
           6 | 1 8
           7 | 2 4 5
           8 | 1 8
           9 | 3
          

横にすると分布の形がヒストグラムと同じように見え、かつ元の値も読み取れます。 データ数が少ない(20〜50程度)場合に特に有用です。


📘 専門的な補足:正規分布と分布の形の対応

統計学で最も重要な分布は正規分布(Normal Distribution)です。 ヒストグラムが「左右対称の釣り鐘型」に近い分布は正規分布に近く、多くの統計的手法(t検定・信頼区間など)の前提条件を満たしやすいです。

「正規性の確認」は実務でも重要なステップです。視覚的にはヒストグラムで確認し、より厳密には正規確率プロット(Q-Qプロット)や統計的検定(Shapiro-Wilk検定など)を使います。これらは推定・検定の章で改めて扱います。


6. 演習問題

問題1(度数分布表の作成)

以下の20人の試験点数から度数分布表を完成させ、最も度数が大きい階級を答えてください。 階級幅は10点(40〜50未満、50〜60未満、…、90〜100以下)で作成してください。

$55, \; 62, \; 73, \; 48, \; 81, \; 66, \; 59, \; 70, \; 77, \; 83,$ $92, \; 61, \; 74, \; 68, \; 55, \; 79, \; 85, \; 63, \; 72, \; 58$

💡 解答・解説を見る

各点数を階級に振り分けると:

階級(点) 該当データ 度数 相対度数
40〜50未満 48 1 0.05
50〜60未満 55, 59, 55, 58 4 0.20
60〜70未満 62, 66, 61, 68, 63 5 0.25
70〜80未満 73, 70, 77, 74, 79, 72 6 0.30
80〜90未満 81, 83, 85 3 0.15
90〜100以下 92 1 0.05
合計 20 1.00

最も度数が大きい階級:70〜80未満(6人)

相対度数を見ると、60〜79点の2つの階級で全体の55%を占めており、データの中心がこのあたりにあることがわかります。


問題2(ヒストグラムの読み取り)

あるヒストグラムを読み取ったところ、次のような分布でした。

度数
           8 |    ██
           7 |    ████
           6 | ████████
           5 | ████████
           4 | ██████████
           3 | ████████████
           2 | ██████████████
           1 | ████████████████
             +--+--+--+--+--+--+--+
               0  2  4  6  8  10 12  (値)
          

(1)この分布の形を「正の歪み・負の歪み・対称」で答えてください。 (2)平均値と中央値のどちらが大きいか、理由とともに答えてください。

💡 解答・解説を見る

(1)分布の形:正の歪み(右裾が長い)

左側(小さい値)に度数が集中しており、右側(大きい値)に向かって度数が減りながら裾を引いています。これを「正の歪み(right-skewed)」と呼びます。

(2)平均値 > 中央値

正の歪みの分布では、大きい値の外れ値が平均を右(大きい方)へ引っ張ります。一方、中央値は順位で決まるため外れ値の影響を受けにくく、より左(小さい側)に位置します。

$\text{正の歪み} \Rightarrow \text{最頻値} < \text{中央値} < \text{平均値}$

年収・資産額・医療費など、現実世界の経済データにはこのような右裾の長い分布が多く見られます。


問題3(箱ひげ図の読み取りと比較)

2つのクラスの試験点数について、箱ひげ図から次の5数要約が読み取れました。

最小値 Q1 中央値 Q3 最大値
クラスA 50 62 72 80 95
クラスB 30 55 70 85 98

(1)各クラスのIQRを求めてください。 (2)「1.5 × IQRルール」を使って、クラスBで30点が外れ値かどうか判定してください。 (3)クラスAとクラスBのどちらのほうが「ばらつきが大きい」といえるか、IQRを根拠に答えてください。

💡 解答・解説を見る

(1)各クラスのIQR:

$IQR_A = Q3_A - Q1_A = 80 - 62 = 18$ $IQR_B = Q3_B - Q1_B = 85 - 55 = 30$

(2)クラスBの30点が外れ値かどうか:

$\text{下限} = Q1_B - 1.5 \times IQR_B = 55 - 1.5 \times 30 = 55 - 45 = 10$

30点 > 10点 なので、下限(10点)を超えていない → 外れ値ではない

ひげは最小値30点まで伸びます。

(3)ばらつきの比較:

$IQR_A = 18 \quad < \quad IQR_B = 30$

クラスBのほうがばらつきが大きい。

IQRは中央50%のデータの広がりを示します。クラスBのIQR(30点)はクラスA(18点)より大きく、中間層の点数のばらつきが大きいことを意味します。

補足:中央値はA(72点)とB(70点)でほぼ同じですが、IQRに大きな差があります。「平均(または中央値)だけで比較しない」ことが重要です。


まとめ

グラフ 何を見るか 強み
度数分布表 区間ごとの集計 数値として正確に把握できる
ヒストグラム 分布の形・ピーク・歪み 「形」を視覚的に把握できる
箱ひげ図 5数要約・外れ値・グループ比較 複数グループを一度に比較できる

この章のキーメッセージ: 数値(平均・標準偏差)とグラフ(ヒストグラム・箱ひげ図)は補完関係にあります。どちらか一方だけでは全体像は見えません。データを見るとき、「まずグラフで形を確認してから数値で詳細を確認する」流れを習慣にしましょう。


次の章へ

記述統計の数値と可視化を学んだ次のステップは、「どのようにデータを収集するか」です。 どんなに優れた分析も、収集方法が偏っていれば結論は信頼できません。

次: データの収集とサンプリング:バイアスのない調査設計