四分位範囲(IQR)を用いた外れ値の判定に関する問題です。
1. 四分位数の計算
まず、データを小さい順に並べます(すでに並んでいます):
$3, 7, 8, 10, 12, 15, 18, 20, 25, 50$
データの個数は10個(偶数)なので、中央値(Q2)は5番目と6番目の値の平均になります:
$Q2 = \frac{12 + 15}{2} = 13.5$
第1四分位数(Q1)は、中央値より小さいデータ($3, 7, 8, 10, 12$)の中央値です。データの個数は5個(奇数)なので、Q1は3番目の値になります:
$Q1 = 8$
第3四分位数(Q3)は、中央値より大きいデータ($15, 18, 20, 25, 50$)の中央値です。データの個数は5個(奇数)なので、Q3は3番目の値になります:
$Q3 = 20$
2. 四分位範囲(IQR)の計算
四分位範囲は、第3四分位数と第1四分位数の差です:
\begin{align}
IQR &= Q3 - Q1 \\
&= 20 - 8 \\
&= 12
\end{align}
3. 外れ値の判定基準の計算
外れ値の判定には、一般的に以下の基準が用いられます:
- 下限値 = Q1 - 1.5 × IQR
- 上限値 = Q3 + 1.5 × IQR
これらの値を計算します:
\begin{align}
\text{下限値} &= Q1 - 1.5 \times IQR \\
&= 8 - 1.5 \times 12 \\
&= 8 - 18 \\
&= -10
\end{align}
\begin{align}
\text{上限値} &= Q3 + 1.5 \times IQR \\
&= 20 + 1.5 \times 12 \\
&= 20 + 18 \\
&= 38
\end{align}
4. 外れ値の判定
データの中で、下限値(-10)未満または上限値(38)を超える値が外れ値と判定されます。
データセット $3, 7, 8, 10, 12, 15, 18, 20, 25, 50$ の中で:
- 下限値(-10)未満の値はありません。
- 上限値(38)を超える値は50のみです。
したがって、このデータセットでは50のみが外れ値と判定されます。
四分位範囲と外れ値の判定について:
- 四分位範囲(IQR)は、データの中心的な50%の広がりを表す散布度の指標です。
- IQRを用いた外れ値の判定は、データの分布に依存しない頑健な方法として広く使用されています。
- 箱ひげ図(Box-and-Whisker Plot)では、IQRの1.5倍を超える値を外れ値として表示することが一般的です。
- 外れ値の存在は、データ収集の誤り、測定エラー、または実際の異常値を示している可能性があります。
- 外れ値の処理(除外、変換、または特別な分析)は、分析の目的や文脈に依存します。