解答と解説を表示
<h4>Lasso回帰:スパース推定による変数選択</h4><div class='key-point'><h4>Lasso回帰の基本概念</h4></div><p class='step'><strong>Step 1: Lasso回帰の定義</strong></p><p>Lasso(Least Absolute Shrinkage and Selection Operator)回帰は以下の目的関数を最小化:</p><div class='formula'>$\min_{\boldsymbol{\beta}} \left\{ \frac{1}{2}\|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\}$
ここで:
- 第1項:残差平方和(データへの適合度)
- 第2項:$L_1$正則化項 $\|\boldsymbol{\beta}\|_1 = \sum_{j=1}^p |\beta_j|$
- $\lambda \geq 0$:正則化パラメータ
Step 2: RidgeとLassoの違い
正則化の比較
手法 | 正則化項 | 効果 | 特徴 |
---|
Ridge | $\lambda\|\boldsymbol{\beta}\|_2^2$ | 収縮 | すべての係数を保持 |
Lasso | $\lambda\|\boldsymbol{\beta}\|_1$ | 収縮+選択 | 一部の係数を厳密に0に |
Elastic Net | $\lambda_1\|\boldsymbol{\beta}\|_1 + \lambda_2\|\boldsymbol{\beta}\|_2^2$ | 両方の利点 | グループ選択も可能 |
Step 3: 幾何学的解釈
Lasso回帰は制約付き最適化と等価:
$\min_{\boldsymbol{\beta}} \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 \quad \text{subject to} \quad \|\boldsymbol{\beta}\|_1 \leq t$
2次元での幾何学的解釈:
- 制約領域:$L_1$球(ダイヤモンド形状)
- 等高線:残差平方和の楕円
- 解:楕円と制約領域の接点
- スパース性:角での接触により係数が0になりやすい
Step 4: 解パス(Solution Path)
$\lambda$の変化に対する係数の軌跡:
$\hat{\boldsymbol{\beta}}(\lambda) = \arg\min_{\boldsymbol{\beta}} \left\{ \|\mathbf{y} - \mathbf{X}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1 \right\}$
解パスの特徴
- $\lambda = 0$:通常の最小二乗推定量
- $\lambda$増加:係数が段階的に0になる
- $\lambda \to \infty$:すべての係数が0
- 区分線形性:解パスは区分線形関数
Step 5: サブグラディエント条件
Lasso推定量の最適性条件(KKT条件):
$-\mathbf{X}^T(\mathbf{y} - \mathbf{X}\hat{\boldsymbol{\beta}}) + \lambda \partial\|\hat{\boldsymbol{\beta}}\|_1 = \mathbf{0}$
ここで、$\partial\|\boldsymbol{\beta}\|_1$はサブグラディエント:
$\partial_{\beta_j} \|\boldsymbol{\beta}\|_1 = \begin{cases} \text{sign}(\beta_j) & \text{if } \beta_j ≠ 0 \\ [-1, 1] & \text{if } \beta_j = 0 \end{cases}$
Step 6: 変数選択の仕組み
1. ソフト閾値化(Soft Thresholding)
座標降下法での更新式:
$\hat{\beta}_j = S\left(\frac{\mathbf{x}_j^T(\mathbf{y} - \mathbf{X}_{-j}\hat{\boldsymbol{\beta}}_{-j})}{\|\mathbf{x}_j\|^2}, \frac{\lambda}{\|\mathbf{x}_j\|^2}\right)$
ソフト閾値化関数:
$S(z, \gamma) = \begin{cases}z - \gamma & \text{if } z > \gamma \\0 & \text{if } |z| \leq \gamma \\z + \gamma & \text{if } z < -\gamma\end{cases}$
2. 変数が0になる条件
変数$j$が解から除外される条件:
$|\mathbf{x}_j^T(\mathbf{y} - \mathbf{X}_{-j}\hat{\boldsymbol{\beta}}_{-j})| \leq \lambda$
Lassoの統計的性質
- オラクル性質:特定条件下で真のモデルを選択
- 予測精度:適切な$\lambda$で良好な予測性能</li><li><strong>グループ効果</strong>:相関の高い変数群から1つを選択</li><li><strong>安定性</strong>:データの小さな変化に敏感</li></ul></div><p class='step'>