解答と解説を表示
<h4>Ridge回帰:正則化による過学習抑制</h4><div class='key-point'><h4>Ridge回帰の基本概念</h4></div><p class='step'><strong>Step 1: Ridge回帰の動機</strong></p><p>通常の最小二乗法の問題:</p><ul><li><strong>多重共線性</strong>:説明変数間の高い相関</li><li><strong>過学習</strong>:訓練データへの過適合</li><li><strong>数値的不安定性</strong>:$\mathbf{X}^T\mathbf{X}$の条件数が大きい</li></ul><p class='step'><strong>Step 2: Ridge回帰の目的関数</strong></p><p>Ridge回帰は以下の目的関数を最小化:</p><div class='formula'>$\min_{\boldsymbol{\beta}} \left\{ \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|^2 \right\}$
ここで:
- 第1項:データへの適合度(残差平方和)
- 第2項:正則化項($L_2$ペナルティ)
- $\lambda \geq 0$:正則化パラメータ
Step 3: Ridge推定量の導出
目的関数を$\boldsymbol{\beta}$で微分:
$\frac{\partial}{\partial \boldsymbol{\beta}} \left[ (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) + \lambda \boldsymbol{\beta}^T\boldsymbol{\beta} \right] = \mathbf{0}$
これより:
$-2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) + 2\lambda \boldsymbol{\beta} = \mathbf{0}$
整理すると:
$(\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y}$
Step 4: Ridge推定量
$\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$
$\lambda$の効果
$\lambda$の値 | 効果 | 推定量の特徴 |
---|
$\lambda = 0$ | 正則化なし | 通常の最小二乗推定量 |
$\lambda > 0$ | 適度な正則化 | バイアス増加、分散減少 |
$\lambda \to \infty$ | 強い正則化 | ゼロベクトルに収束 |
Step 5: $\lambda \to \infty$の極限解析
$\lambda$が非常に大きいとき:
$\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$
$\lambda \mathbf{I}$が支配的になるため:
$\hat{\boldsymbol{\beta}}_{\text{ridge}} \approx (\lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y} = \frac{1}{\lambda}\mathbf{X}^T\mathbf{y}$
$\lambda \to \infty$のとき:
$\hat{\boldsymbol{\beta}}_{\text{ridge}} \to \mathbf{0}$
Step 6: 幾何学的解釈
Ridge回帰は制約付き最適化問題と等価:
$\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 \quad \text{subject to} \quad \|\boldsymbol{\beta}\|^2 \leq t$
$\lambda$が大きいほど制約$t$が小さくなり、最終的に$\boldsymbol{\beta} = \mathbf{0}$に収束
Ridge回帰の統計的性質
- バイアス:$E[\hat{\boldsymbol{\beta}}_{\text{ridge}}] \neq \boldsymbol{\beta}$(バイアスあり)
- 分散:$\text{Var}(\hat{\boldsymbol{\beta}}_{\text{ridge}}) < \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}})$
- MSE:適切な$\lambda$でMSEが最小化</li><li><strong>収縮効果</strong>:係数をゼロ方向に収縮</li></ul></div>