回帰分析における予測値の信頼区間と予測区間に関する問題です。
1. 信頼区間と予測区間の定義
単回帰分析において、新しい説明変数の値 $x_0$ に対して、以下の2種類の区間が考えられます:
予測値の信頼区間:新しい説明変数の値 $x_0$ に対する応答変数の平均値 $E(Y|x_0)$ の信頼区間です。これは、回帰直線上の点 $\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0$ の不確実性を表します。
予測区間:新しい説明変数の値 $x_0$ に対する個々の応答値 $Y|x_0$ の予測区間です。これは、回帰直線上の点 $\hat{y}_0$ だけでなく、個々の観測値のばらつきも考慮した区間です。
2. 信頼区間と予測区間の計算式
予測値の95%信頼区間は以下の式で計算されます:
$\hat{y}_0 \pm t_{0.025, n-2} \times SE(\hat{y}_0)$
ここで、$SE(\hat{y}_0)$ は予測値の標準誤差で、以下の式で計算されます:
$SE(\hat{y}_0) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}$
個々の応答値の95%予測区間は以下の式で計算されます:
$\hat{y}_0 \pm t_{0.025, n-2} \times SE_{pred}(\hat{y}_0)$
ここで、$SE_{pred}(\hat{y}_0)$ は予測の標準誤差で、以下の式で計算されます:
$SE_{pred}(\hat{y}_0) = \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}$
$\hat{\sigma}$ は残差の標準偏差の推定値です。
3. 信頼区間と予測区間の比較
予測区間の標準誤差 $SE_{pred}(\hat{y}_0)$ と信頼区間の標準誤差 $SE(\hat{y}_0)$ を比較すると、予測区間の標準誤差には追加の項 $\hat{\sigma}^2$ が含まれていることがわかります:
$SE_{pred}(\hat{y}_0)^2 = \hat{\sigma}^2 + SE(\hat{y}_0)^2$
したがって、$SE_{pred}(\hat{y}_0) > SE(\hat{y}_0)$ となり、予測区間は常に信頼区間よりも広くなります。
これは直感的にも理解できます。予測値の信頼区間は回帰直線(平均応答)の不確実性のみを考慮しますが、予測区間は回帰直線の不確実性に加えて、個々の観測値のばらつき(残差の変動)も考慮するためです。
4. 区間の幅と $x_0$ の関係
信頼区間と予測区間の幅は、$x_0$ の値に依存します。具体的には、$x_0$ が説明変数の平均値 $\bar{x}$ から離れるほど、区間は広くなります。これは、回帰直線の推定精度が説明変数の平均付近で最も高く、平均から離れるほど低くなるためです。
したがって、「予測区間と信頼区間の幅は $x_0$ の値に依存しない」という記述は誤りです。
信頼区間と予測区間の用途と解釈:
- 予測値の信頼区間は、新しい説明変数の値 $x_0$ に対する平均応答値の不確実性を表します。これは、「$x = x_0$ のとき、平均的な $y$ の値はどの範囲に入るか」という問いに答えます。
- 予測区間は、新しい説明変数の値 $x_0$ に対する個々の応答値の不確実性を表します。これは、「$x = x_0$ のとき、新しい観測値 $y$ はどの範囲に入るか」という問いに答えます。
- 予測区間は常に信頼区間よりも広くなります。これは、個々の観測値には平均からのばらつきがあるためです。
- 両方の区間とも、説明変数の値が訓練データの範囲内にある場合に最も信頼性が高くなります。訓練データの範囲外への外挿は注意が必要です。
したがって、正しい記述は「予測区間は常に信頼区間よりも広い」です。