MAP推定:事後分布の最頻値による点推定
MAP(Maximum A Posteriori)推定量は、事後分布を最大化するパラメータ値で、事前情報と尤度情報を最適に統合した点推定手法です。
MAP推定の基本原理
MAP推定量は事後分布の最大値として定義されます:
$$\\hat{\\theta}_{MAP} = \\arg\\max_\\theta p(\\theta|\\mathbf{x}) = \\arg\\max_\\theta p(\\mathbf{x}|\\theta)p(\\theta)$$
対数事後分布を最大化することで計算します:
$$\\hat{\\theta}_{MAP} = \\arg\\max_\\theta [\\log p(\\mathbf{x}|\\theta) + \\log p(\\theta)]$$
Step 1: 問題設定の整理
- 観測データ:$x_1 = 2.1, x_2 = 1.8, x_3 = 2.3$(n=3)
- 尤度:$x_i \\sim N(\\mu, \\sigma^2 = 1)$
- 事前分布:$\\mu \\sim N(\\mu_0 = 1, \\tau_0^2 = 4)$
- 求める値:MAP推定量 $\\hat{\\mu}_{MAP}$
Step 2: 基本統計量の計算
$$\\bar{x} = \\frac{x_1 + x_2 + x_3}{3} = \\frac{2.1 + 1.8 + 2.3}{3} = \\frac{6.2}{3} ≈ 2.067$$
$$n = 3$$
Step 3: 対数事後分布の構築
対数尤度:
$$\\log p(\\mathbf{x}|\\mu) = \\sum_{i=1}^3 \\log p(x_i|\\mu) = \\sum_{i=1}^3 \\left[-\\frac{1}{2}\\log(2\\pi) - \\frac{(x_i-\\mu)^2}{2}\\right]$$
$$= -\\frac{3}{2}\\log(2\\pi) - \\frac{1}{2}\\sum_{i=1}^3 (x_i-\\mu)^2$$
対数事前分布:
$$\\log p(\\mu) = -\\frac{1}{2}\\log(2\\pi \\cdot 4) - \\frac{(\\mu-1)^2}{2 \\cdot 4}$$
$$= -\\frac{1}{2}\\log(8\\pi) - \\frac{(\\mu-1)^2}{8}$$
Step 4: 対数事後分布の最大化
対数事後分布:
$$\\log p(\\mu|\\mathbf{x}) \\propto -\\frac{1}{2}\\sum_{i=1}^3 (x_i-\\mu)^2 - \\frac{(\\mu-1)^2}{8}$$
μについて微分して0と置く:
$$\\frac{d}{d\\mu}\\log p(\\mu|\\mathbf{x}) = \\sum_{i=1}^3 (x_i-\\mu) - \\frac{\\mu-1}{4} = 0$$
$$\\sum_{i=1}^3 x_i - 3\\mu - \\frac{\\mu-1}{4} = 0$$
$$\\sum_{i=1}^3 x_i - 3\\mu - \\frac{\\mu}{4} + \\frac{1}{4} = 0$$
$$\\sum_{i=1}^3 x_i + \\frac{1}{4} = \\mu\\left(3 + \\frac{1}{4}\\right) = \\mu \\cdot \\frac{13}{4}$$
Step 5: MAP推定量の計算
$$\\hat{\\mu}_{MAP} = \\frac{\\sum_{i=1}^3 x_i + \\frac{1}{4}}{\\frac{13}{4}} = \\frac{4(\\sum_{i=1}^3 x_i + \\frac{1}{4})}{13}$$
$$= \\frac{4 \\times 6.2 + 4 \\times \\frac{1}{4}}{13} = \\frac{24.8 + 1}{13} = \\frac{25.8}{13} ≈ 1.985$$
より正確な計算:
$$\\hat{\\mu}_{MAP} = \\frac{4 \\times 6.2 + 1}{13} = \\frac{25.8}{13} = 1.984615...$$
小数第3位まで:1.985
共役性を利用した解法
正規-正規共役性により、事後分布は解析的に求まります:
$$\\mu|\\mathbf{x} \\sim N(\\mu_n, \\tau_n^2)$$
事後精度:$\\frac{1}{\\tau_n^2} = \\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2} = \\frac{1}{4} + \\frac{3}{1} = \\frac{13}{4}$
事後平均(=MAP推定量):
$$\\mu_n = \\frac{\\frac{\\mu_0}{\\tau_0^2} + \\frac{n\\bar{x}}{\\sigma^2}}{\\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2}} = \\frac{\\frac{1}{4} + \\frac{3 \\times 2.067}{1}}{\\frac{13}{4}}$$
$$= \\frac{0.25 + 6.201}{3.25} = \\frac{6.451}{3.25} ≈ 1.985$$
Step 6: 最尤推定量との比較
最尤推定量:
$$\\hat{\\mu}_{MLE} = \\bar{x} = 2.067$$
推定手法 | 推定値 | 特徴 |
---|
最尤推定 | 2.067 | データのみに基づく |
MAP推定 | 1.985 | 事前分布による収縮 |
事前平均 | 1.000 | 事前知識のみ |
収縮効果 | 約0.082 | 事前分布方向への調整 |
Step 7: 重み付き平均としての解釈
MAP推定量は、事前平均とサンプル平均の精度重み付き平均:
$$\\hat{\\mu}_{MAP} = w_0 \\mu_0 + w_1 \\bar{x}$$
重み:
- $w_0 = \\frac{1/\\tau_0^2}{1/\\tau_0^2 + n/\\sigma^2} = \\frac{1/4}{13/4} = \\frac{1}{13}$(事前情報の重み)
- $w_1 = \\frac{n/\\sigma^2}{1/\\tau_0^2 + n/\\sigma^2} = \\frac{3}{13/4} = \\frac{12}{13}$(データの重み)
$$\\hat{\\mu}_{MAP} = \\frac{1}{13} \\times 1 + \\frac{12}{13} \\times 2.067 = \\frac{1 + 24.804}{13} = \\frac{25.804}{13} ≈ 1.985$$
MAP推定の特徴
- 正則化効果:事前分布による極端値の抑制
- バイアス-バリアンス トレードオフ:若干のバイアスで分散を削減
- 情報統合:事前知識とデータの最適統合
- 計算効率:共役分布では解析解が得られる
Step 8: 損失関数の観点
MAP推定量は、0-1損失(絶対損失)下での最適推定量:
$$L(\\theta, \\hat{\\theta}) = \\begin{cases} 0 & \\text{if } |\\theta - \\hat{\\theta}| < \\epsilon \\\\ 1 & \\text{otherwise} \\end{cases}$$
一方、事後平均は平方損失下での最適推定量:
$$L(\\theta, \\hat{\\theta}) = (\\theta - \\hat{\\theta})^2$$
正規分布の場合、MAP推定量と事後平均は一致します。
Step 9: 信頼性の評価
MAP推定量の不確実性は事後分散で評価:
$$\\text{Var}[\\mu|\\mathbf{x}] = \\tau_n^2 = \\frac{4}{13} ≈ 0.308$$
MAP推定量の標準誤差:
$$\\text{SE}(\\hat{\\mu}_{MAP}) = \\sqrt{0.308} ≈ 0.555$$
95%信頼区間:
$$[1.985 - 1.96 \\times 0.555, 1.985 + 1.96 \\times 0.555] ≈ [0.897, 3.073]$$
MAP推定の実用的利点
- 事前知識の活用:専門知識やドメイン情報の統合
- 小標本性能:データが少ない場合の安定性
- 過学習の防止:複雑なモデルでの正則化効果
- 計算の安定性:数値計算上の利点
Step 10: 非共役分布での計算
共役性がない場合のMAP推定:
- 数値最適化:ニュートン法、準ニュートン法
- EM算法:潜在変数がある場合
- 変分近似:近似的MAP推定
- MCMC:サンプリングベースの近似
収束判定基準:
- 勾配のノルム:$\\|\\nabla \\log p(\\theta|\\mathbf{x})\\| < \\epsilon$
- パラメータ変化:$\\|\\theta^{(t+1)} - \\theta^{(t)}\\| < \\delta$
- 対数尤度変化:$|\\log p(\\theta^{(t+1)}|\\mathbf{x}) - \\log p(\\theta^{(t)}|\\mathbf{x})| < \\gamma$
MAP vs 他の推定手法
推定手法 | 損失関数 | 特徴 | 計算 |
---|
MAP | 0-1損失 | 事後分布のモード | 最適化 |
事後平均 | 平方損失 | 期待値最小化 | 積分 |
事後中央値 | 絶対損失 | 分位点 | 数値計算 |
MLE | なし | 尤度最大化 | 最適化 |