予測と信頼区間 - 問題演習問題5 - 青の統計学-DS Playground-

予測と信頼区間レベル1

単回帰分析において、新しい説明変数の値 x₀ に対する応答変数の予測値の95%信頼区間と、個々の応答値の95%予測区間について、正しい記述はどれか。

解説

解答と解説を表示

回帰分析における予測値の信頼区間と予測区間に関する問題です。1. 信頼区間と予測区間の定義 単回帰分析において、新しい説明変数の値 $x_0$ に対して、以下の2種類の区間が考えられます：予測値の信頼区間：新しい説明変数の値 $x_0$ に対する応答変数の平均値 $E(Y|x_0)$ の信頼区間です。これは、回帰直線上の点 $\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0$ の不確実性を表します。予測区間：新しい説明変数の値 $x_0$ に対する個々の応答値 $Y|x_0$ の予測区間です。これは、回帰直線上の点 $\hat{y}_0$ だけでなく、個々の観測値のばらつきも考慮した区間です。2. 信頼区間と予測区間の計算式 予測値の95%信頼区間は以下の式で計算されます： $\hat{y}_0 \pm t_{0.025, n-2} \times SE(\hat{y}_0)

lt;/p>ここで、$SE(\hat{y}_0)$ は予測値の標準誤差で、以下の式で計算されます： $SE(\hat{y}_0) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}

lt;/p>個々の応答値の95%予測区間は以下の式で計算されます： $\hat{y}_0 \pm t_{0.025, n-2} \times SE_{pred}(\hat{y}_0)

lt;/p>ここで、$SE_{pred}(\hat{y}_0)$ は予測の標準誤差で、以下の式で計算されます： $SE_{pred}(\hat{y}_0) = \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}

lt;/p>$\hat{\sigma}$ は残差の標準偏差の推定値です。3. 信頼区間と予測区間の比較 予測区間の標準誤差 $SE_{pred}(\hat{y}_0)$ と信頼区間の標準誤差 $SE(\hat{y}_0)$ を比較すると、予測区間の標準誤差には追加の項 $\hat{\sigma}^2$ が含まれていることがわかります： $SE_{pred}(\hat{y}_0)^2 = \hat{\sigma}^2 + SE(\hat{y}_0)^2

lt;/p>したがって、$SE_{pred}(\hat{y}_0) > SE(\hat{y}_0)$ となり、予測区間は常に信頼区間よりも広くなります。これは直感的にも理解できます。予測値の信頼区間は回帰直線（平均応答）の不確実性のみを考慮しますが、予測区間は回帰直線の不確実性に加えて、個々の観測値のばらつき（残差の変動）も考慮するためです。4. 区間の幅と $x_0$ の関係 信頼区間と予測区間の幅は、$x_0$ の値に依存します。具体的には、$x_0$ が説明変数の平均値 $\bar{x}$ から離れるほど、区間は広くなります。これは、回帰直線の推定精度が説明変数の平均付近で最も高く、平均から離れるほど低くなるためです。したがって、「予測区間と信頼区間の幅は $x_0$ の値に依存しない」という記述は誤りです。信頼区間と予測区間の用途と解釈： <ul> <li>予測値の信頼区間は、新しい説明変数の値 $x_0$ に対する平均応答値の不確実性を表します。これは、「$x = x_0$ のとき、平均的な $y$ の値はどの範囲に入るか」という問いに答えます。</li> <li>予測区間は、新しい説明変数の値 $x_0$ に対する個々の応答値の不確実性を表します。これは、「$x = x_0$ のとき、新しい観測値 $y$ はどの範囲に入るか」という問いに答えます。</li> <li>予測区間は常に信頼区間よりも広くなります。これは、個々の観測値には平均からのばらつきがあるためです。</li> <li>両方の区間とも、説明変数の値が訓練データの範囲内にある場合に最も信頼性が高くなります。訓練データの範囲外への外挿は注意が必要です。</li> </ul>したがって、正しい記述は「予測区間は常に信頼区間よりも広い」です。

回帰分析編