解答と解説を表示
<h4>ロバスト回帰:外れ値に頑健な推定法</h4><div class='key-point'><h4>ロバスト回帰の必要性</h4></div><p class='step'><strong>Step 1: 最小二乗法の問題点</strong></p><p>通常の最小二乗法の脆弱性:</p><ul><li><strong>外れ値の影響</strong>:単一の外れ値でも推定が大きく変わる</li><li><strong>破壊点</strong>:50%の外れ値で推定が破綻</li><li><strong>効率性の低下</strong>:正規分布以外での性能劣化</li></ul><p class='step'><strong>Step 2: ロバスト推定の原理</strong></p><p>ロバスト回帰は以下の目的関数を最小化:</p><div class='formula'>$\min_{\boldsymbol{\beta}} \sum_{i=1}^n \rho\left(\frac{y_i - \mathbf{x}_i^T\boldsymbol{\beta}}{\sigma}\right)$
ここで、$\rho(\cdot)$は損失関数、$\sigma$はスケールパラメータ
Step 3: Huber損失関数
Huber損失関数は以下で定義される:
$\rho_c(r) = \begin{cases}\frac{1}{2}r^2 & \text{if } |r| \leq c \\c|r| - \frac{1}{2}c^2 & \text{if } |r| > c\end{cases}$
ここで、$c > 0$は調整パラメータ(閾値)
損失関数の比較
損失関数 | 式 | 特徴 | 破壊点 |
---|
二乗損失 | $\frac{1}{2}r^2$ | 効率的だが外れ値に敏感 | 0% |
Huber損失 | 上記の定義 | 効率性とロバスト性のバランス | 約29% |
絶対値損失 | $|r|$ | ロバストだが効率性低い | 50% |
Tukey損失 | より複雑 | 高いロバスト性 | 50% |
Step 4: 問題の具体的計算
与えられた条件:
- 閾値パラメータ:$c = 1.345$
- 残差:$r = 2.0$
$|r| = 2.0 > c = 1.345$なので、Huber損失の第2式を使用:
$\rho_{1.345}(2.0) = 1.345 \times |2.0| - \frac{1}{2} \times (1.345)^2$
$= 1.345 \times 2.0 - \frac{1}{2} \times 1.810025$
$= 2.69 - 0.9050125 = 1.7849875$
Step 5: Huber推定量の性質
1. 影響関数
Huber損失の微分($\psi$関数):
$\psi_c(r) = \begin{cases}r & \text{if } |r| \leq c \\c \cdot \text{sign}(r) & \text{if } |r| > c\end{cases}$
2. 統計的効率性
- 正規分布での効率性:$c = 1.345$で約95%
- 漸近分散:最小二乗推定量より若干大きい
- 破壊点:約29%(最小二乗法の0%より大幅改善)
Step 6: M推定量としての定式化
Huber推定量はM推定量の一種:
$\sum_{i=1}^n \psi\left(\frac{y_i - \mathbf{x}_i^T\boldsymbol{\beta}}{\sigma}\right) \mathbf{x}_i = \mathbf{0}$
反復重み付き最小二乗(IRLS)による求解:
$w_i = \frac{\psi(r_i/\sigma)}{r_i/\sigma}$</div><div class='key-point'><h4>ロバスト推定の実装</h4><ol><li><strong>初期推定</strong>:最小二乗推定量で初期化</li><li><strong>スケール推定</strong>:MAD(中央絶対偏差)等でスケール推定</li><li><strong>重み計算</strong>:残差に基づく重みの計算</li><li><strong>重み付き回帰</strong>:重み付き最小二乗による更新</li><li><strong>収束判定</strong>:パラメータの変化が閾値以下まで反復</li></ol></div>