Elastic Net回帰の正則化
Elastic Netは、Ridge回帰とLasso回帰の長所を組み合わせた正則化手法です。L1正則化とL2正則化を同時に適用することで、特徴選択と多重共線性の両方に対処できます。
Elastic Netの目的関数
Elastic Net回帰の目的関数は:
$\min_{\beta} \frac{1}{2n} ||y - X\beta||_2^2 + \lambda_1 \sum_{j=1}^p \beta_j^2 + \lambda_2 \sum_{j=1}^p |\beta_j|$
ここで:
- 第1項:データの当てはまり(RSS)
- 第2項:L2正則化(Ridge)
- 第3項:L1正則化(Lasso)
Step 1: 正則化項の構成要素
Ridge正則化(L2ペナルティ):
$\lambda_1 \sum_{j=1}^p \beta_j^2$
- 効果:回帰係数を0に近づける(但し完全に0にはしない)
- 特徴:多重共線性に対して安定
- 欠点:特徴選択機能がない
Lasso正則化(L1ペナルティ):
$\lambda_2 \sum_{j=1}^p |\beta_j|$
- 効果:一部の回帰係数を完全に0にする
- 特徴:自動的な特徴選択
- 欠点:相関の高い特徴群から任意に1つを選ぶ
なぜElastic Netが必要か?
| 手法 | 長所 | 短所 |
|---|
| Ridge | 安定性、多重共線性対応 | 特徴選択不可 |
| Lasso | 特徴選択、解釈性 | 相関特徴で不安定 |
| Elastic Net | 両方の長所を結合 | パラメータ調整が複雑 |
Step 2: 選択肢の検討
選択肢A:$\lambda_1 \sum_{j=1}^p \beta_j^2 + \lambda_2 \sum_{j=1}^p |\beta_j|$
これは正しいElastic Netの正則化項です。
- $\lambda_1$:Ridge正則化の強度
- $\lambda_2$:Lasso正則化の強度
- 独立したパラメータで調整可能
選択肢B:$\lambda_1 \sum_{j=1}^p |\beta_j| + \lambda_2 \sum_{j=1}^p \beta_j^2$
パラメータの対応が逆になっており、間違いです。
選択肢C・D:数学的に正しくない形式で、間違いです。
パラメータの解釈
Elastic Netでは、しばしば以下の等価な表現も使われます:
$\lambda[(1-\alpha)||\beta||_2^2 + \alpha||\beta||_1]$
ここで:
- $\lambda$:全体の正則化強度
- $\alpha \in [0,1]$:L1とL2のバランス
- $\alpha = 0$:Ridge回帰
- $\alpha = 1$:Lasso回帰
Step 3: 実用的な利点
相関特徴の処理:
高い相関を持つ特徴群がある場合:
- Lasso:群から1つだけを選択
- Elastic Net:群全体を選択または除外
例:遺伝子発現データで相関の高い遺伝子群
$\text{相関} > 0.9 \Rightarrow \text{Lassoは不安定、Elastic Netは安定}$
Step 4: パラメータ選択
クロスバリデーション
最適な$\lambda_1$と$\lambda_2$は交差検証で選択:
- グリッドサーチ:パラメータ空間を格子状に探索
- 座標降下法:効率的な最適化アルゴリズム
- 情報量規準:AIC、BICによる選択