外れ値の視覚的な検出に用いられる箱ひげ図の理解を問う問題です。
箱ひげ図は、データの五数要約(最小値、第1四分位数、中央値、第3四分位数、最大値)を視覚的に表現し、分布の形状や外れ値の存在を把握するのに役立ちます。
1. 箱ひげ図の構成要素
一般的な箱ひげ図は以下の要素から構成されます(定義にはいくつかのバリエーションがあります)。
- 箱 (Box):
- 下辺(または左辺):第1四分位数 (Q1)。データの下位25%点。
- 上辺(または右辺):第3四分位数 (Q3)。データの上位25%点(下から75%点)。
- 箱の中の線:中央値 (Q2、メディアン)。データを小さい順に並べたときの中央の値。
- 箱の長さ(高さ):四分位範囲 (IQR = Q3 - Q1)。データの中央50%が含まれる範囲。
- ひげ (Whiskers):
- 箱から上下(または左右)に伸びる線。
- 一般的な定義(Tukeyスタイル):
- 上のひげの上限:Q3 + 1.5 × IQR を超えない最大のデータ値。
- 下のひげの下限:Q1 - 1.5 × IQR を下回らない最小のデータ値。
- 外れ値候補 (Outlier Candidates):
- ひげの範囲から外れたデータ点。個別の点としてプロットされます。
- Q1 - 1.5 × IQR より小さい値、または Q3 + 1.5 × IQR より大きい値。
- さらに極端な外れ値(例:Q1 - 3 × IQR、Q3 + 3 × IQR の範囲外)を区別して表示することもあります。
2. 各選択肢の検討
- 「箱の長さ(高さ)はデータの範囲(最大値 - 最小値)を示す。」:誤り。箱の長さは四分位範囲 (IQR = Q3 - Q1) を示します。
- 「箱ひげ図の中央線は常にデータの平均値を表す。」:誤り。中央線は中央値(メディアン)を表します。平均値と中央値は分布が対称でない限り一致しません。
- 「第1四分位数からIQRの1.5倍を下回る値、または第3四分位数からIQRの1.5倍を上回る値が外れ値候補となる。」:正しい。これはTukeyによる一般的な外れ値候補の定義です。
- 「ひげの長さは、常にデータの最小値と最大値まで伸びる。」:誤り。ひげはIQRの1.5倍の範囲内に収まるデータ点まで伸び、それを超えるデータは外れ値候補として扱われます。ただし、外れ値候補がない場合は最小値・最大値まで伸びることもあります。
- 「外れ値が存在する場合、箱ひげ図ではそれらの値は無視されて描画される。」:誤り。外れ値候補は無視されず、ひげの外側に個別の点としてプロットされます。これが箱ひげ図の重要な役割の一つです。
外れ値の取り扱い
外れ値が検出された場合、その原因を調査することが重要です。測定ミスや入力エラーであれば修正または削除を検討しますが、真に異常な値である場合は、その影響を考慮した分析手法(ロバスト統計など)を用いたり、外れ値を除外せずに分析したりします。安易な削除は分析結果を歪める可能性があるため慎重な判断が必要です。