回帰分析

単回帰、重回帰、ロジスティック回帰、一般化線形モデルなど統計検定準1級レベルの回帰分析手法を学習します。

Elastic Net レベル1

Huber損失関数を用いたロバスト回帰において、閾値パラメータを$c = 1.345$とするとき、残差$r = 2.0$に対するHuber損失$\rho(r)$の値はいくらか。

解説
解答と解説を表示
<h4>ロバスト回帰:外れ値に頑健な推定法</h4><div class='key-point'><h4>ロバスト回帰の必要性</h4></div><p class='step'><strong>Step 1: 最小二乗法の問題点</strong></p><p>通常の最小二乗法の脆弱性:</p><ul><li><strong>外れ値の影響</strong>:単一の外れ値でも推定が大きく変わる</li><li><strong>破壊点</strong>:50%の外れ値で推定が破綻</li><li><strong>効率性の低下</strong>:正規分布以外での性能劣化</li></ul><p class='step'><strong>Step 2: ロバスト推定の原理</strong></p><p>ロバスト回帰は以下の目的関数を最小化:</p><div class='formula'>$\min_{\boldsymbol{\beta}} \sum_{i=1}^n \rho\left(\frac{y_i - \mathbf{x}_i^T\boldsymbol{\beta}}{\sigma}\right)$

ここで、$\rho(\cdot)$は損失関数、$\sigma$はスケールパラメータ

Step 3: Huber損失関数

Huber損失関数は以下で定義される:

$\rho_c(r) = \begin{cases}\frac{1}{2}r^2 & \text{if } |r| \leq c \\c|r| - \frac{1}{2}c^2 & \text{if } |r| > c\end{cases}$

ここで、$c > 0$は調整パラメータ(閾値)

損失関数の比較

損失関数特徴破壊点
二乗損失$\frac{1}{2}r^2$効率的だが外れ値に敏感0%
Huber損失上記の定義効率性とロバスト性のバランス約29%
絶対値損失$|r|$ロバストだが効率性低い50%
Tukey損失より複雑高いロバスト性50%

Step 4: 問題の具体的計算

与えられた条件:

  • 閾値パラメータ:$c = 1.345$
  • 残差:$r = 2.0$

$|r| = 2.0 > c = 1.345$なので、Huber損失の第2式を使用:

$\rho_{1.345}(2.0) = 1.345 \times |2.0| - \frac{1}{2} \times (1.345)^2$
$= 1.345 \times 2.0 - \frac{1}{2} \times 1.810025$
$= 2.69 - 0.9050125 = 1.7849875$

Step 5: Huber推定量の性質

1. 影響関数

Huber損失の微分($\psi$関数):

$\psi_c(r) = \begin{cases}r & \text{if } |r| \leq c \\c \cdot \text{sign}(r) & \text{if } |r| > c\end{cases}$

2. 統計的効率性

  • 正規分布での効率性:$c = 1.345$で約95%
  • 漸近分散:最小二乗推定量より若干大きい
  • 破壊点:約29%(最小二乗法の0%より大幅改善)

Step 6: M推定量としての定式化

Huber推定量はM推定量の一種:

$\sum_{i=1}^n \psi\left(\frac{y_i - \mathbf{x}_i^T\boldsymbol{\beta}}{\sigma}\right) \mathbf{x}_i = \mathbf{0}$

反復重み付き最小二乗(IRLS)による求解:

$w_i = \frac{\psi(r_i/\sigma)}{r_i/\sigma}$</div><div class='key-point'><h4>ロバスト推定の実装</h4><ol><li><strong>初期推定</strong>:最小二乗推定量で初期化</li><li><strong>スケール推定</strong>:MAD(中央絶対偏差)等でスケール推定</li><li><strong>重み計算</strong>:残差に基づく重みの計算</li><li><strong>重み付き回帰</strong>:重み付き最小二乗による更新</li><li><strong>収束判定</strong>:パラメータの変化が閾値以下まで反復</li></ol></div>
問題 1/10
カテゴリ一覧に戻る