Elastic Net - 回帰分析問題10 - 青の統計学-DS Playground-

Elastic Net レベル1

Huber損失関数を用いたロバスト回帰において、閾値パラメータを$c = 1.345$とするとき、残差$r = 2.0$に対するHuber損失$\rho(r)$の値はいくらか。

解説

解答と解説を表示

<h4>ロバスト回帰：外れ値に頑健な推定法</h4><div class='key-point'><h4>ロバスト回帰の必要性</h4></div><p class='step'><strong>Step 1: 最小二乗法の問題点</strong></p><p>通常の最小二乗法の脆弱性：</p><ul><li><strong>外れ値の影響</strong>：単一の外れ値でも推定が大きく変わる</li><li><strong>破壊点</strong>：50%の外れ値で推定が破綻</li><li><strong>効率性の低下</strong>：正規分布以外での性能劣化</li></ul><p class='step'><strong>Step 2: ロバスト推定の原理</strong></p><p>ロバスト回帰は以下の目的関数を最小化：</p><div class='formula'>$\min_{\boldsymbol{\beta}} \sum_{i=1}^n \rho\left(\frac{y_i - \mathbf{x}_i^T\boldsymbol{\beta}}{\sigma}\right)$

ここで、$\rho(\cdot)$は損失関数、$\sigma$はスケールパラメータ

Step 3: Huber損失関数

Huber損失関数は以下で定義される：

$\rho_c(r) = \begin{cases}\frac{1}{2}r^2 & \text{if } |r| \leq c \\c|r| - \frac{1}{2}c^2 & \text{if } |r| > c\end{cases}$

ここで、$c > 0$は調整パラメータ（閾値）

損失関数の比較

損失関数	式	特徴	破壊点
二乗損失	$\frac{1}{2}r^2$	効率的だが外れ値に敏感	0%
Huber損失	上記の定義	効率性とロバスト性のバランス	約29%
絶対値損失	$\|r\|$	ロバストだが効率性低い	50%
Tukey損失	より複雑	高いロバスト性	50%

Step 4: 問題の具体的計算

与えられた条件：

閾値パラメータ：$c = 1.345$
残差：$r = 2.0$

$|r| = 2.0 > c = 1.345$なので、Huber損失の第2式を使用：

$\rho_{1.345}(2.0) = 1.345 \times |2.0| - \frac{1}{2} \times (1.345)^2$

$= 1.345 \times 2.0 - \frac{1}{2} \times 1.810025$

$= 2.69 - 0.9050125 = 1.7849875$

Step 5: Huber推定量の性質

1. 影響関数

Huber損失の微分（$\psi$関数）：

$\psi_c(r) = \begin{cases}r & \text{if } |r| \leq c \\c \cdot \text{sign}(r) & \text{if } |r| > c\end{cases}$

2. 統計的効率性

正規分布での効率性：$c = 1.345$で約95%
漸近分散：最小二乗推定量より若干大きい
破壊点：約29%（最小二乗法の0%より大幅改善）

Step 6: M推定量としての定式化

Huber推定量はM推定量の一種：

$\sum_{i=1}^n \psi\left(\frac{y_i - \mathbf{x}_i^T\boldsymbol{\beta}}{\sigma}\right) \mathbf{x}_i = \mathbf{0}$

反復重み付き最小二乗（IRLS）による求解：

$w_i = \frac{\psi(r_i/\sigma)}{r_i/\sigma}$</div><div class='key-point'><h4>ロバスト推定の実装</h4><ol><li><strong>初期推定</strong>：最小二乗推定量で初期化</li><li><strong>スケール推定</strong>：MAD（中央絶対偏差）等でスケール推定</li><li><strong>重み計算</strong>：残差に基づく重みの計算</li><li><strong>重み付き回帰</strong>：重み付き最小二乗による更新</li><li><strong>収束判定</strong>：パラメータの変化が閾値以下まで反復</li></ol></div>