Ridge回帰の理論 - 回帰分析問題9 - 青の統計学-DS Playground-

Ridge回帰の理論レベル1

Ridge回帰の推定量$\hat{\beta}_{\text{ridge}} = (X'X + \lambda I)^{-1}X'Y$において、正則化パラメータ$\lambda$が無限大に近づくとき、推定量はどうなるか。

解説

解答と解説を表示

<h4>Ridge回帰：正則化による過学習抑制</h4><div class='key-point'><h4>Ridge回帰の基本概念</h4></div><p class='step'><strong>Step 1: Ridge回帰の動機</strong></p><p>通常の最小二乗法の問題：</p><ul><li><strong>多重共線性</strong>：説明変数間の高い相関</li><li><strong>過学習</strong>：訓練データへの過適合</li><li><strong>数値的不安定性</strong>：$\mathbf{X}^T\mathbf{X}$の条件数が大きい</li></ul><p class='step'><strong>Step 2: Ridge回帰の目的関数</strong></p><p>Ridge回帰は以下の目的関数を最小化：</p><div class='formula'>$\min_{\boldsymbol{\beta}} \left\{ \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|^2 \right\}$

ここで：

第1項：データへの適合度（残差平方和）
第2項：正則化項（$L_2$ペナルティ）
$\lambda \geq 0$：正則化パラメータ

Step 3: Ridge推定量の導出

目的関数を$\boldsymbol{\beta}$で微分：

$\frac{\partial}{\partial \boldsymbol{\beta}} \left[ (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) + \lambda \boldsymbol{\beta}^T\boldsymbol{\beta} \right] = \mathbf{0}$

これより：

$-2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) + 2\lambda \boldsymbol{\beta} = \mathbf{0}$

整理すると：

$(\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y}$

Step 4: Ridge推定量

$\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$

$\lambda$の効果

$\lambda$の値	効果	推定量の特徴
$\lambda = 0$	正則化なし	通常の最小二乗推定量
$\lambda > 0$	適度な正則化	バイアス増加、分散減少
$\lambda \to \infty$	強い正則化	ゼロベクトルに収束

Step 5: $\lambda \to \infty$の極限解析

$\lambda$が非常に大きいとき：

$\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$

$\lambda \mathbf{I}$が支配的になるため：

$\hat{\boldsymbol{\beta}}_{\text{ridge}} \approx (\lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y} = \frac{1}{\lambda}\mathbf{X}^T\mathbf{y}$

$\lambda \to \infty$のとき：

$\hat{\boldsymbol{\beta}}_{\text{ridge}} \to \mathbf{0}$

Step 6: 幾何学的解釈

Ridge回帰は制約付き最適化問題と等価：

$\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 \quad \text{subject to} \quad \|\boldsymbol{\beta}\|^2 \leq t$

$\lambda$が大きいほど制約$t$が小さくなり、最終的に$\boldsymbol{\beta} = \mathbf{0}$に収束

Ridge回帰の統計的性質

バイアス：$E[\hat{\boldsymbol{\beta}}_{\text{ridge}}] \neq \boldsymbol{\beta}$（バイアスあり）
分散：$\text{Var}(\hat{\boldsymbol{\beta}}_{\text{ridge}}) < \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}})$
MSE：適切な$\lambda$でMSEが最小化</li><li><strong>収縮効果</strong>：係数をゼロ方向に収縮</li></ul></div>