回帰分析

単回帰、重回帰、ロジスティック回帰、一般化線形モデルなど統計検定準1級レベルの回帰分析手法を学習します。

残差分析と診断 レベル1

線形回帰モデルの残差$e_i$に対して、標準化残差$r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$において、$h_{ii}$が表すものはどれか。

解説
解答と解説を表示
<h4>回帰診断:ハット行列とレバレッジの理論</h4><div class='key-point'><h4>ハット行列の定義と性質</h4></div><p class='step'><strong>Step 1: ハット行列の数学的定義</strong></p><p>線形回帰モデル$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$において:</p><div class='formula'>$\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$

予測値ベクトル:

$\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}$

この関係から「ハット行列」と呼ばれる

Step 2: ハット行列の性質

ハット行列の性質

  • 対称性:$\mathbf{H} = \mathbf{H}^T$
  • 冪等性:$\mathbf{H}^2 = \mathbf{H}$
  • トレース:$\text{tr}(\mathbf{H}) = p$(パラメータ数)
  • 固有値:0または1のみ

Step 3: 対角要素$h_{ii}$の意味

ハット行列の対角要素$h_{ii}$は:

$h_{ii} = \mathbf{x}_i^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{x}_i$

これはレバレッジ(leverage)と呼ばれ、以下を表す:

  • 影響力:観測値$y_i$が予測値$\hat{y}_i$に与える影響
  • 外れ値検出:説明変数空間での外れ値の指標
  • 予測精度:予測値の不確実性に関連

Step 4: 標準化残差の導出

残差の分散:

$\text{Var}(e_i) = \sigma^2(1 - h_{ii})$

標準化残差:

$r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$

ここで、$\hat{\sigma}^2 = \frac{\sum e_i^2}{n-p}$

レバレッジの解釈基準

レバレッジ値解釈対応
$h_{ii} > \frac{2p}{n}$高レバレッジ注意が必要
$h_{ii} > \frac{3p}{n}$非常に高レバレッジ詳細な検討
$\frac{1}{n} \leq h_{ii} \leq 1$理論的範囲正常範囲

Step 5: 回帰診断での活用

1. 外れ値の検出

  • 高レバレッジ点:$h_{ii}$が大きい観測値
  • 影響力のある点:Cook距離との組み合わせ

2. Cook距離

$D_i = \frac{r_i^2}{p} \cdot \frac{h_{ii}}{1-h_{ii}}$

3. DFBETAS

$\text{DFBETAS}_{j,i} = \frac{\hat{\beta}_j - \hat{\beta}_{j(i)}}{\hat{\sigma}_{(i)}\sqrt{c_{jj}}}$

Step 6: 実践的な診断手順

  1. レバレッジプロット:$h_{ii}$の分布確認</li><li><strong>残差プロット</strong>:標準化残差の分布</li><li><strong>影響力診断</strong>:Cook距離による総合評価</li><li><strong>モデル修正</strong>:問題のある観測値への対処</li></ol>
問題 1/10
カテゴリ一覧に戻る