MAP推定:事後分布の最頻値による点推定
MAP(Maximum A Posteriori)推定量は、事後分布を最大化するパラメータ値で、事前情報と尤度情報を最適に統合した点推定手法です。
MAP推定の基本原理
MAP推定量は事後分布の最大値として定義されます:
$\hat{\theta}_{MAP} = \arg\max_\theta p(\theta|\mathbf{x}) = \arg\max_\theta p(\mathbf{x}|\theta)p(\theta)$
対数事後分布を最大化することで計算します:
$\hat{\theta}_{MAP} = \arg\max_\theta [\log p(\mathbf{x}|\theta) + \log p(\theta)]$
Step 1: 問題設定の整理
- 観測データ:$x_1 = 2.1, x_2 = 1.8, x_3 = 2.3$(n=3)
- 尤度:$x_i \sim N(\mu, \sigma^2 = 1)$
- 事前分布:$\mu \sim N(\mu_0 = 1, \tau_0^2 = 4)$
- 求める値:MAP推定量 $\hat{\mu}_{MAP}$
Step 2: 基本統計量の計算
$\bar{x} = \frac{x_1 + x_2 + x_3}{3} = \frac{2.1 + 1.8 + 2.3}{3} = \frac{6.2}{3} ≈ 2.067$
$n = 3$
Step 3: 対数事後分布の構築
対数尤度:
$\log p(\mathbf{x}|\mu) = \sum_{i=1}^3 \log p(x_i|\mu) = \sum_{i=1}^3 \left[-\frac{1}{2}\log(2\pi) - \frac{(x_i-\mu)^2}{2}\right]$
$= -\frac{3}{2}\log(2\pi) - \frac{1}{2}\sum_{i=1}^3 (x_i-\mu)^2$
対数事前分布:
$\log p(\mu) = -\frac{1}{2}\log(2\pi \cdot 4) - \frac{(\mu-1)^2}{2 \cdot 4}$
$= -\frac{1}{2}\log(8\pi) - \frac{(\mu-1)^2}{8}$
Step 4: 対数事後分布の最大化
対数事後分布:
$\log p(\mu|\mathbf{x}) \propto -\frac{1}{2}\sum_{i=1}^3 (x_i-\mu)^2 - \frac{(\mu-1)^2}{8}$
μについて微分して0と置く:
$\frac{d}{d\mu}\log p(\mu|\mathbf{x}) = \sum_{i=1}^3 (x_i-\mu) - \frac{\mu-1}{4} = 0$
$\sum_{i=1}^3 x_i - 3\mu - \frac{\mu-1}{4} = 0$
$\sum_{i=1}^3 x_i - 3\mu - \frac{\mu}{4} + \frac{1}{4} = 0$
$\sum_{i=1}^3 x_i + \frac{1}{4} = \mu\left(3 + \frac{1}{4}\right) = \mu \cdot \frac{13}{4}$
Step 5: MAP推定量の計算
$\hat{\mu}_{MAP} = \frac{\sum_{i=1}^3 x_i + \frac{1}{4}}{\frac{13}{4}} = \frac{4(\sum_{i=1}^3 x_i + \frac{1}{4})}{13}$
$= \frac{4 \times 6.2 + 4 \times \frac{1}{4}}{13} = \frac{24.8 + 1}{13} = \frac{25.8}{13} ≈ 1.985$
小数第3位まで:1.985
共役性を利用した解法
正規-正規共役性により、事後分布は解析的に求まります:
$\mu|\mathbf{x} \sim N(\mu_n, \tau_n^2)$
事後精度:$\frac{1}{\tau_n^2} = \frac{1}{\tau_0^2} + \frac{n}{\sigma^2} = \frac{1}{4} + \frac{3}{1} = \frac{13}{4}$
事後平均(=MAP推定量):
$\mu_n = \frac{\frac{\mu_0}{\tau_0^2} + \frac{n\bar{x}}{\sigma^2}}{\frac{1}{\tau_0^2} + \frac{n}{\sigma^2}} = \frac{\frac{1}{4} + \frac{3 \times 2.067}{1}}{\frac{13}{4}}$
$= \frac{0.25 + 6.201}{3.25} = \frac{6.451}{3.25} ≈ 1.985$
Step 6: 最尤推定量との比較
最尤推定量:
$\hat{\mu}_{MLE} = \bar{x} = 2.067$
| 推定手法 | 推定値 | 特徴 |
|---|
| 最尤推定 | 2.067 | データのみに基づく |
| MAP推定 | 1.985 | 事前分布による収縮 |
| 事前平均 | 1.000 | 事前知識のみ |
| 収縮効果 | 約0.082 | 事前分布方向への調整 |
Step 7: 重み付き平均としての解釈
MAP推定量は、事前平均とサンプル平均の精度重み付き平均:
$\hat{\mu}_{MAP} = w_0 \mu_0 + w_1 \bar{x}$
重み:
- $w_0 = \frac{1/\tau_0^2}{1/\tau_0^2 + n/\sigma^2} = \frac{1/4}{13/4} = \frac{1}{13}$(事前情報の重み)
- $w_1 = \frac{n/\sigma^2}{1/\tau_0^2 + n/\sigma^2} = \frac{3}{13/4} = \frac{12}{13}$(データの重み)
$\hat{\mu}_{MAP} = \frac{1}{13} \times 1 + \frac{12}{13} \times 2.067 = \frac{1 + 24.804}{13} = \frac{25.804}{13} ≈ 1.985$
MAP推定の特徴
- 正則化効果:事前分布による極端値の抑制
- バイアス-バリアンス トレードオフ:若干のバイアスで分散を削減
- 情報統合:事前知識とデータの最適統合
- 計算効率:共役分布では解析解が得られる
Step 8: 損失関数の観点
MAP推定量は、0-1損失(絶対損失)下での最適推定量:
$L(\theta, \hat{\theta}) = \begin{cases} 0 & \text{if } |\theta - \hat{\theta}| < \epsilon \\ 1 & \text{otherwise} \end{cases}$
一方、事後平均は平方損失下での最適推定量:
$L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2$
正規分布の場合、MAP推定量と事後平均は一致します。
Step 9: 信頼性の評価
MAP推定量の不確実性は事後分散で評価:
$\text{Var}[\mu|\mathbf{x}] = \tau_n^2 = \frac{4}{13} ≈ 0.308$
MAP推定量の標準誤差:
$\text{SE}(\hat{\mu}_{MAP}) = \sqrt{0.308} ≈ 0.555$
95%信頼区間:
$[1.985 - 1.96 \times 0.555, 1.985 + 1.96 \times 0.555] ≈ [0.897, 3.073]$
MAP推定の実用的利点
- 事前知識の活用:専門知識やドメイン情報の統合
- 小標本性能:データが少ない場合の安定性
- 過学習の防止:複雑なモデルでの正則化効果
- 計算の安定性:数値計算上の利点
Step 10: 非共役分布での計算
共役性がない場合のMAP推定:
- 数値最適化:ニュートン法、準ニュートン法
- EM算法:潜在変数がある場合
- 変分近似:近似的MAP推定
- MCMC:サンプリングベースの近似
収束判定基準:
- 勾配のノルム:$\|\nabla \log p(\theta|\mathbf{x})\| < \epsilon$
- パラメータ変化:$\|\theta^{(t+1)} - \theta^{(t)}\| < \delta$
- 対数尤度変化:$|\log p(\theta^{(t+1)}|\mathbf{x}) - \log p(\theta^{(t)}|\mathbf{x})| < \gamma$
MAP vs 他の推定手法
| 推定手法 | 損失関数 | 特徴 | 計算 |
|---|
| MAP | 0-1損失 | 事後分布のモード | 最適化 |
| 事後平均 | 平方損失 | 期待値最小化 | 積分 |
| 事後中央値 | 絶対損失 | 分位点 | 数値計算 |
| MLE | なし | 尤度最大化 | 最適化 |