解答と解説を表示
<h4>回帰診断:ハット行列とレバレッジの理論</h4><div class='key-point'><h4>ハット行列の定義と性質</h4></div><p class='step'><strong>Step 1: ハット行列の数学的定義</strong></p><p>線形回帰モデル$\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$において:</p><div class='formula'>$\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$
予測値ベクトル:
$\hat{\mathbf{y}} = \mathbf{H}\mathbf{y}$
この関係から「ハット行列」と呼ばれる
Step 2: ハット行列の性質
ハット行列の性質
- 対称性:$\mathbf{H} = \mathbf{H}^T$
- 冪等性:$\mathbf{H}^2 = \mathbf{H}$
- トレース:$\text{tr}(\mathbf{H}) = p$(パラメータ数)
- 固有値:0または1のみ
Step 3: 対角要素$h_{ii}$の意味
ハット行列の対角要素$h_{ii}$は:
$h_{ii} = \mathbf{x}_i^T(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{x}_i$
これはレバレッジ(leverage)と呼ばれ、以下を表す:
- 影響力:観測値$y_i$が予測値$\hat{y}_i$に与える影響
- 外れ値検出:説明変数空間での外れ値の指標
- 予測精度:予測値の不確実性に関連
Step 4: 標準化残差の導出
残差の分散:
$\text{Var}(e_i) = \sigma^2(1 - h_{ii})$
標準化残差:
$r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$
ここで、$\hat{\sigma}^2 = \frac{\sum e_i^2}{n-p}$
レバレッジの解釈基準
レバレッジ値 | 解釈 | 対応 |
---|
$h_{ii} > \frac{2p}{n}$ | 高レバレッジ | 注意が必要 |
$h_{ii} > \frac{3p}{n}$ | 非常に高レバレッジ | 詳細な検討 |
$\frac{1}{n} \leq h_{ii} \leq 1$ | 理論的範囲 | 正常範囲 |
Step 5: 回帰診断での活用
1. 外れ値の検出
- 高レバレッジ点:$h_{ii}$が大きい観測値
- 影響力のある点:Cook距離との組み合わせ
2. Cook距離
$D_i = \frac{r_i^2}{p} \cdot \frac{h_{ii}}{1-h_{ii}}$
3. DFBETAS
$\text{DFBETAS}_{j,i} = \frac{\hat{\beta}_j - \hat{\beta}_{j(i)}}{\hat{\sigma}_{(i)}\sqrt{c_{jj}}}$
Step 6: 実践的な診断手順
- レバレッジプロット:$h_{ii}$の分布確認</li><li><strong>残差プロット</strong>:標準化残差の分布</li><li><strong>影響力診断</strong>:Cook距離による総合評価</li><li><strong>モデル修正</strong>:問題のある観測値への対処</li></ol>