<p>回帰分析における予測値の信頼区間と予測区間に関する問題です。</p><p class='step'>1. 信頼区間と予測区間の定義</p>
<p>単回帰分析において、新しい説明変数の値 $x_0$ に対して、以下の2種類の区間が考えられます:</p><p><strong>予測値の信頼区間</strong>:新しい説明変数の値 $x_0$ に対する応答変数の平均値 $E(Y|x_0)$ の信頼区間です。これは、回帰直線上の点 $\hat{y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0$ の不確実性を表します。</p><p><strong>予測区間</strong>:新しい説明変数の値 $x_0$ に対する個々の応答値 $Y|x_0$ の予測区間です。これは、回帰直線上の点 $\hat{y}_0$ だけでなく、個々の観測値のばらつきも考慮した区間です。</p><p class='step'>2. 信頼区間と予測区間の計算式</p>
<p>予測値の95%信頼区間は以下の式で計算されます:</p>
<p class='formula'>$\hat{y}_0 \pm t_{0.025, n-2} \times SE(\hat{y}_0)
lt;/p><p>ここで、$SE(\hat{y}_0)$ は予測値の標準誤差で、以下の式で計算されます:</p>
<p class='formula'>$SE(\hat{y}_0) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}
lt;/p><p>個々の応答値の95%予測区間は以下の式で計算されます:</p>
<p class='formula'>$\hat{y}_0 \pm t_{0.025, n-2} \times SE_{pred}(\hat{y}_0)
lt;/p><p>ここで、$SE_{pred}(\hat{y}_0)$ は予測の標準誤差で、以下の式で計算されます:</p>
<p class='formula'>$SE_{pred}(\hat{y}_0) = \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}
lt;/p><p>$\hat{\sigma}$ は残差の標準偏差の推定値です。</p><p class='step'>3. 信頼区間と予測区間の比較</p>
<p>予測区間の標準誤差 $SE_{pred}(\hat{y}_0)$ と信頼区間の標準誤差 $SE(\hat{y}_0)$ を比較すると、予測区間の標準誤差には追加の項 $\hat{\sigma}^2$ が含まれていることがわかります:</p>
<p class='formula'>$SE_{pred}(\hat{y}_0)^2 = \hat{\sigma}^2 + SE(\hat{y}_0)^2
lt;/p><p>したがって、$SE_{pred}(\hat{y}_0) > SE(\hat{y}_0)$ となり、予測区間は常に信頼区間よりも広くなります。</p><p>これは直感的にも理解できます。予測値の信頼区間は回帰直線(平均応答)の不確実性のみを考慮しますが、予測区間は回帰直線の不確実性に加えて、個々の観測値のばらつき(残差の変動)も考慮するためです。</p><p class='step'>4. 区間の幅と $x_0$ の関係</p>
<p>信頼区間と予測区間の幅は、$x_0$ の値に依存します。具体的には、$x_0$ が説明変数の平均値 $\bar{x}$ から離れるほど、区間は広くなります。これは、回帰直線の推定精度が説明変数の平均付近で最も高く、平均から離れるほど低くなるためです。</p><p>したがって、「予測区間と信頼区間の幅は $x_0$ の値に依存しない」という記述は誤りです。</p><p class='note'>信頼区間と予測区間の用途と解釈:</p>
<ul>
<li>予測値の信頼区間は、新しい説明変数の値 $x_0$ に対する平均応答値の不確実性を表します。これは、「$x = x_0$ のとき、平均的な $y$ の値はどの範囲に入るか」という問いに答えます。</li>
<li>予測区間は、新しい説明変数の値 $x_0$ に対する個々の応答値の不確実性を表します。これは、「$x = x_0$ のとき、新しい観測値 $y$ はどの範囲に入るか」という問いに答えます。</li>
<li>予測区間は常に信頼区間よりも広くなります。これは、個々の観測値には平均からのばらつきがあるためです。</li>
<li>両方の区間とも、説明変数の値が訓練データの範囲内にある場合に最も信頼性が高くなります。訓練データの範囲外への外挿は注意が必要です。</li>
</ul><p>したがって、正しい記述は「予測区間は常に信頼区間よりも広い」です。</p>