回帰分析

単回帰、重回帰、ロジスティック回帰、一般化線形モデルなど統計検定準1級レベルの回帰分析手法を学習します。

Ridge回帰の理論 レベル1

Ridge回帰の推定量$\hat{\beta}_{\text{ridge}} = (X'X + \lambda I)^{-1}X'Y$において、正則化パラメータ$\lambda$が無限大に近づくとき、推定量はどうなるか。

解説
解答と解説を表示
<h4>Ridge回帰:正則化による過学習抑制</h4><div class='key-point'><h4>Ridge回帰の基本概念</h4></div><p class='step'><strong>Step 1: Ridge回帰の動機</strong></p><p>通常の最小二乗法の問題:</p><ul><li><strong>多重共線性</strong>:説明変数間の高い相関</li><li><strong>過学習</strong>:訓練データへの過適合</li><li><strong>数値的不安定性</strong>:$\mathbf{X}^T\mathbf{X}$の条件数が大きい</li></ul><p class='step'><strong>Step 2: Ridge回帰の目的関数</strong></p><p>Ridge回帰は以下の目的関数を最小化:</p><div class='formula'>$\min_{\boldsymbol{\beta}} \left\{ \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|^2 \right\}$

ここで:

  • 第1項:データへの適合度(残差平方和)
  • 第2項:正則化項($L_2$ペナルティ)
  • $\lambda \geq 0$:正則化パラメータ

Step 3: Ridge推定量の導出

目的関数を$\boldsymbol{\beta}$で微分:

$\frac{\partial}{\partial \boldsymbol{\beta}} \left[ (\mathbf{y} - \mathbf{X}\boldsymbol{\beta})^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) + \lambda \boldsymbol{\beta}^T\boldsymbol{\beta} \right] = \mathbf{0}$

これより:

$-2\mathbf{X}^T(\mathbf{y} - \mathbf{X}\boldsymbol{\beta}) + 2\lambda \boldsymbol{\beta} = \mathbf{0}$

整理すると:

$(\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y}$

Step 4: Ridge推定量

$\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$

$\lambda$の効果

$\lambda$の値効果推定量の特徴
$\lambda = 0$正則化なし通常の最小二乗推定量
$\lambda > 0$適度な正則化バイアス増加、分散減少
$\lambda \to \infty$強い正則化ゼロベクトルに収束

Step 5: $\lambda \to \infty$の極限解析

$\lambda$が非常に大きいとき:

$\hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y}$

$\lambda \mathbf{I}$が支配的になるため:

$\hat{\boldsymbol{\beta}}_{\text{ridge}} \approx (\lambda \mathbf{I})^{-1}\mathbf{X}^T\mathbf{y} = \frac{1}{\lambda}\mathbf{X}^T\mathbf{y}$

$\lambda \to \infty$のとき:

$\hat{\boldsymbol{\beta}}_{\text{ridge}} \to \mathbf{0}$

Step 6: 幾何学的解釈

Ridge回帰は制約付き最適化問題と等価:

$\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 \quad \text{subject to} \quad \|\boldsymbol{\beta}\|^2 \leq t$

$\lambda$が大きいほど制約$t$が小さくなり、最終的に$\boldsymbol{\beta} = \mathbf{0}$に収束

Ridge回帰の統計的性質

  • バイアス:$E[\hat{\boldsymbol{\beta}}_{\text{ridge}}] \neq \boldsymbol{\beta}$(バイアスあり)
  • 分散:$\text{Var}(\hat{\boldsymbol{\beta}}_{\text{ridge}}) < \text{Var}(\hat{\boldsymbol{\beta}}_{\text{OLS}})$
  • MSE:適切な$\lambda$でMSEが最小化</li><li><strong>収縮効果</strong>:係数をゼロ方向に収縮</li></ul></div>
問題 1/10
カテゴリ一覧に戻る