この問題では、データの分布を要約し視覚化する上で便利な四分位数の計算方法と、それらを用いて描かれる箱ひげ図の基本的な理解を深めます。これにより、データの中心的な傾向、ばらつき、そして外れ値の存在を把握するスキルを養います。
四分位数 (Quartiles) とは?
四分位数は、データを小さい順に並べたときに、そのデータを累積度数で4等分する位置に来る値のことです。データの分布の広がりや中心的な傾向を詳細に把握するのに役立ちます。
- 第1四分位数 (Q1): データ全体を小さい方から数えて25%の位置にある値。これより小さいデータが全体の約1/4を占めます。「下側四分位数」とも呼ばれます。
- 第2四分位数 (Q2): データ全体を小さい方から数えて50%の位置にある値で、これは中央値 (Median) と同じです。データをちょうど半分に分ける点です。
- 第3四分位数 (Q3): データ全体を小さい方から数えて75%の位置にある値。これより小さいデータが全体の約3/4を占めます。「上側四分位数」とも呼ばれます。
四分位数の具体的な計算方法にはいくつかの定義が存在しますが、ここでは統計検定などで一般的に用いられる、中央値の考え方を拡張した方法で解説します。
箱ひげ図 (Box-and-Whisker Plot) とは?
箱ひげ図は、データの分布を視覚的に分かりやすく表現するためのグラフです。主に以下の5つの要約統計量(五数要約)と、場合によっては外れ値を用いて描かれます。
- 最小値 (Min)
- 第1四分位数 (Q1)
- 中央値 (Q2 or Median)
- 第3四分位数 (Q3)
- 最大値 (Max)
箱の部分はQ1からQ3の範囲(つまり、データの中央50%が含まれる範囲)を示し、この長さを四分位範囲 (IQR = Q3 - Q1) と呼びます。箱の中の線が中央値(Q2)を表します。「ひげ」は箱の両端から、外れ値を除いた最小値および最大値まで伸びます。外れ値は、しばしば個別の点としてプロットされます。
1. データを小さい順に並べる
与えられたデータは $2, 5, 7, 8, 10, 12, 15$ です。データは既に小さい順に並んでいます。
データの個数は $n=7$ です。
2. 第2四分位数 (Q2、中央値) の計算
データの個数が奇数 $(n=7)$ なので、中央値 (Q2) は $\frac{n+1}{2}$ 番目の値です。
$Q2 = \text{第} \frac{7+1}{2} \text{番目の値} = \text{第4番目の値} = 8
$
3. 第1四分位数 (Q1) の計算
Q1 は、中央値より小さいデータ群(下位データ群)の中央値です。この問題では、中央値である8を除いた下位データ群は $2, 5, 7$ となります。
下位データ群の個数は3個(奇数)なので、Q1 は下位データ群の中で $\frac{3+1}{2}$ 番目の値です。
$Q1 = \text{下位データ群の第2番目の値} = 5
$
4. 第3四分位数 (Q3) の計算
Q3 は、中央値より大きいデータ群(上位データ群)の中央値です。この問題では、中央値である8を除いた上位データ群は $10, 12, 15$ となります。
上位データ群の個数は3個(奇数)なので、Q3 は上位データ群の中で $\frac{3+1}{2}$ 番目の値です。
$Q3 = \text{上位データ群の第2番目の値} = 12
$
5. 四分位範囲 (IQR) の計算 (参考)
四分位範囲 (IQR: Interquartile Range) は、第3四分位数と第1四分位数の差で、データのばらつき具合を示す重要な指標です。
$\begin{align}
IQR &= Q3 - Q1 \\\\
&= 12 - 5 \\\\
&= 7
\end{align}
$
IQRは、データの中央部分50%がどの程度の範囲に広がっているかを示し、平均値や標準偏差と比べて外れ値の影響を受けにくい頑健な(ロバストな)指標とされています。
四分位数と箱ひげ図から読み取れること
- 中心的な位置: 中央値 (Q2) でデータ全体の中央がどこにあるかを把握できます。
- データの散らばり具合:
- IQR (Q3 - Q1) でデータの中央50%の散らばり(範囲)がわかります。IQRが大きいほど、中央部分のばらつきが大きいことを意味します。
- 最小値から最大値までの範囲(レンジ)で、データ全体の広がりがわかります。
- 分布の対称性(歪み):
- 箱の中の中央値の位置: 中央値が箱の中央にあれば、中央50%のデータは対称に近い分布をしています。中央値がQ1側に寄っていれば右に裾が長い(正の歪み)、Q3側に寄っていれば左に裾が長い(負の歪み)傾向が推測できます。具体的には、(Q2 - Q1) と (Q3 - Q2) の長さを比較します。
- ひげの長さ: 上下のひげの長さを比較することでも、全体の分布の歪みについての手がかりが得られます。
- 外れ値の可能性: 箱ひげ図では、一般的に以下の基準で外れ値を視覚的に示すことがあります。
- Q1 - 1.5 × IQR (下側外れ値の境界)より小さい値
- Q3 + 1.5 × IQR (上側外れ値の境界)より大きい値
この問題のデータでは、下側境界は $5 - 1.5 \times 7 = 5 - 10.5 = -5.5$、上側境界は $12 + 1.5 \times 7 = 12 + 10.5 = 22.5$ となり、データ $2, 5, 7, 8, 10, 12, 15$ は全てこの範囲内にあるため、この基準では外れ値はありません。
箱ひげ図は、データセットの特性を簡潔に要約し、特に複数のデータセットの分布を比較する際に非常に有効です。
補足:データの個数が偶数の場合や、より厳密な定義について
データの個数が偶数の場合、中央値や四分位数の計算で中央に位置する2つの値の平均を取ることがあります。また、四分位数の定義は教科書やソフトウェアによって若干異なる場合があるため、どの定義に基づいているかを確認することも重要です。しかし、基本的な考え方や、それによって何がわかるかという点は共通しています。
以上の計算から、このデータの第1四分位数(Q1)は5、第3四分位数(Q3)は12となります。