基礎編

データの要約と分析の基礎を確認します。

四分位範囲と外れ値 レベル1

次のデータセットがある。 \begin{array}{l|cccccccccc} \hline x & 3 & 7 & 8 & 10 & 12 & 15 & 18 & 20 & 25 & 50 \\ \hline \end{array}このデータセットの四分位範囲(IQR)を用いた外れ値の判定基準(Q1 - 1.5 × IQR, Q3 + 1.5 × IQR)に基づくと、外れ値はどれか。

解説
解答と解説を表示
<p>四分位範囲(IQR)を用いた外れ値の判定に関する問題です。</p><p class='step'>1. 四分位数の計算</p> <p>まず、データを小さい順に並べます(すでに並んでいます):</p> <p>$3, 7, 8, 10, 12, 15, 18, 20, 25, 50
lt;/p><p>データの個数は10個(偶数)なので、中央値(Q2)は5番目と6番目の値の平均になります:</p> <p class='formula'>$Q2 = \frac{12 + 15}{2} = 13.5
lt;/p><p>第1四分位数(Q1)は、中央値より小さいデータ($3, 7, 8, 10, 12$)の中央値です。データの個数は5個(奇数)なので、Q1は3番目の値になります:</p> <p class='formula'>$Q1 = 8
lt;/p><p>第3四分位数(Q3)は、中央値より大きいデータ($15, 18, 20, 25, 50$)の中央値です。データの個数は5個(奇数)なので、Q3は3番目の値になります:</p> <p class='formula'>$Q3 = 20
lt;/p><p class='step'>2. 四分位範囲(IQR)の計算</p> <p>四分位範囲は、第3四分位数と第1四分位数の差です:</p> <p class='formula'> \begin{align} IQR &= Q3 - Q1 \\ &= 20 - 8 \\ &= 12 \end{align} </p><p class='step'>3. 外れ値の判定基準の計算</p> <p>外れ値の判定には、一般的に以下の基準が用いられます:</p> <ul> <li>下限値 = Q1 - 1.5 × IQR</li> <li>上限値 = Q3 + 1.5 × IQR</li> </ul><p>これらの値を計算します:</p> <p class='formula'> \begin{align} \text{下限値} &= Q1 - 1.5 \times IQR \\ &= 8 - 1.5 \times 12 \\ &= 8 - 18 \\ &= -10 \end{align} </p><p class='formula'> \begin{align} \text{上限値} &= Q3 + 1.5 \times IQR \\ &= 20 + 1.5 \times 12 \\ &= 20 + 18 \\ &= 38 \end{align} </p><p class='step'>4. 外れ値の判定</p> <p>データの中で、下限値(-10)未満または上限値(38)を超える値が外れ値と判定されます。</p><p>データセット $3, 7, 8, 10, 12, 15, 18, 20, 25, 50$ の中で:</p> <ul> <li>下限値(-10)未満の値はありません。</li> <li>上限値(38)を超える値は50のみです。</li> </ul><p>したがって、このデータセットでは50のみが外れ値と判定されます。</p><p class='note'>四分位範囲と外れ値の判定について:</p> <ul> <li>四分位範囲(IQR)は、データの中心的な50%の広がりを表す散布度の指標です。</li> <li>IQRを用いた外れ値の判定は、データの分布に依存しない頑健な方法として広く使用されています。</li> <li>箱ひげ図(Box-and-Whisker Plot)では、IQRの1.5倍を超える値を外れ値として表示することが一般的です。</li> <li>外れ値の存在は、データ収集の誤り、測定エラー、または実際の異常値を示している可能性があります。</li> <li>外れ値の処理(除外、変換、または特別な分析)は、分析の目的や文脈に依存します。</li> </ul></p>
問題 1/10
カテゴリ一覧に戻る