MAP推定量の理解 - ベイズ統計学問題15

MAP推定量の理解レベル1

正規分布$N(μ,σ²=1)$からの標本$x₁=2.1, x₂=1.8, x₃=2.3$について、平均μの事前分布を$N(1,4)$とする。MAP推定量$\hat{μ}_{MAP}$と最尤推定量$\hat{μ}_{MLE}$を比較し、MAP推定量はいくらか。小数第3位まで求めよ。

解説

解答と解説を表示

MAP推定：事後分布の最頻値による点推定

MAP（Maximum A Posteriori）推定量は、事後分布を最大化するパラメータ値で、事前情報と尤度情報を最適に統合した点推定手法です。

MAP推定の基本原理

MAP推定量は事後分布の最大値として定義されます：

$$\\hat{\\theta}_{MAP} = \\arg\\max_\\theta p(\\theta|\\mathbf{x}) = \\arg\\max_\\theta p(\\mathbf{x}|\\theta)p(\\theta)$$

対数事後分布を最大化することで計算します：

$$\\hat{\\theta}_{MAP} = \\arg\\max_\\theta [\\log p(\\mathbf{x}|\\theta) + \\log p(\\theta)]$$

Step 1: 問題設定の整理

観測データ：$x_1 = 2.1, x_2 = 1.8, x_3 = 2.3$（n=3）
尤度：$x_i \\sim N(\\mu, \\sigma^2 = 1)$
事前分布：$\\mu \\sim N(\\mu_0 = 1, \\tau_0^2 = 4)$
求める値：MAP推定量 $\\hat{\\mu}_{MAP}$

Step 2: 基本統計量の計算

$$\\bar{x} = \\frac{x_1 + x_2 + x_3}{3} = \\frac{2.1 + 1.8 + 2.3}{3} = \\frac{6.2}{3} ≈ 2.067$$

$$n = 3$$

Step 3: 対数事後分布の構築

対数尤度：

$$\\log p(\\mathbf{x}|\\mu) = \\sum_{i=1}^3 \\log p(x_i|\\mu) = \\sum_{i=1}^3 \\left[-\\frac{1}{2}\\log(2\\pi) - \\frac{(x_i-\\mu)^2}{2}\\right]$$

$$= -\\frac{3}{2}\\log(2\\pi) - \\frac{1}{2}\\sum_{i=1}^3 (x_i-\\mu)^2$$

対数事前分布：

$$\\log p(\\mu) = -\\frac{1}{2}\\log(2\\pi \\cdot 4) - \\frac{(\\mu-1)^2}{2 \\cdot 4}$$

$$= -\\frac{1}{2}\\log(8\\pi) - \\frac{(\\mu-1)^2}{8}$$

Step 4: 対数事後分布の最大化

対数事後分布：

$$\\log p(\\mu|\\mathbf{x}) \\propto -\\frac{1}{2}\\sum_{i=1}^3 (x_i-\\mu)^2 - \\frac{(\\mu-1)^2}{8}$$

μについて微分して0と置く：

$$\\frac{d}{d\\mu}\\log p(\\mu|\\mathbf{x}) = \\sum_{i=1}^3 (x_i-\\mu) - \\frac{\\mu-1}{4} = 0$$

$$\\sum_{i=1}^3 x_i - 3\\mu - \\frac{\\mu-1}{4} = 0$$

$$\\sum_{i=1}^3 x_i - 3\\mu - \\frac{\\mu}{4} + \\frac{1}{4} = 0$$

$$\\sum_{i=1}^3 x_i + \\frac{1}{4} = \\mu\\left(3 + \\frac{1}{4}\\right) = \\mu \\cdot \\frac{13}{4}$$

Step 5: MAP推定量の計算

$$\\hat{\\mu}_{MAP} = \\frac{\\sum_{i=1}^3 x_i + \\frac{1}{4}}{\\frac{13}{4}} = \\frac{4(\\sum_{i=1}^3 x_i + \\frac{1}{4})}{13}$$

$$= \\frac{4 \\times 6.2 + 4 \\times \\frac{1}{4}}{13} = \\frac{24.8 + 1}{13} = \\frac{25.8}{13} ≈ 1.985$$

より正確な計算：

$$\\hat{\\mu}_{MAP} = \\frac{4 \\times 6.2 + 1}{13} = \\frac{25.8}{13} = 1.984615...$$

小数第3位まで：1.985

共役性を利用した解法

正規-正規共役性により、事後分布は解析的に求まります：

$$\\mu|\\mathbf{x} \\sim N(\\mu_n, \\tau_n^2)$$

事後精度：$\\frac{1}{\\tau_n^2} = \\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2} = \\frac{1}{4} + \\frac{3}{1} = \\frac{13}{4}$

事後平均（=MAP推定量）：

$$\\mu_n = \\frac{\\frac{\\mu_0}{\\tau_0^2} + \\frac{n\\bar{x}}{\\sigma^2}}{\\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2}} = \\frac{\\frac{1}{4} + \\frac{3 \\times 2.067}{1}}{\\frac{13}{4}}$$

$$= \\frac{0.25 + 6.201}{3.25} = \\frac{6.451}{3.25} ≈ 1.985$$

Step 6: 最尤推定量との比較

最尤推定量：

$$\\hat{\\mu}_{MLE} = \\bar{x} = 2.067$$

推定手法	推定値	特徴
最尤推定	2.067	データのみに基づく
MAP推定	1.985	事前分布による収縮
事前平均	1.000	事前知識のみ
収縮効果	約0.082	事前分布方向への調整

Step 7: 重み付き平均としての解釈

MAP推定量は、事前平均とサンプル平均の精度重み付き平均：

$$\\hat{\\mu}_{MAP} = w_0 \\mu_0 + w_1 \\bar{x}$$

重み：

$w_0 = \\frac{1/\\tau_0^2}{1/\\tau_0^2 + n/\\sigma^2} = \\frac{1/4}{13/4} = \\frac{1}{13}$（事前情報の重み）
$w_1 = \\frac{n/\\sigma^2}{1/\\tau_0^2 + n/\\sigma^2} = \\frac{3}{13/4} = \\frac{12}{13}$（データの重み）

$$\\hat{\\mu}_{MAP} = \\frac{1}{13} \\times 1 + \\frac{12}{13} \\times 2.067 = \\frac{1 + 24.804}{13} = \\frac{25.804}{13} ≈ 1.985$$

MAP推定の特徴

正則化効果：事前分布による極端値の抑制
バイアス-バリアンストレードオフ：若干のバイアスで分散を削減
情報統合：事前知識とデータの最適統合
計算効率：共役分布では解析解が得られる

Step 8: 損失関数の観点

MAP推定量は、0-1損失（絶対損失）下での最適推定量：

$$L(\\theta, \\hat{\\theta}) = \\begin{cases} 0 & \\text{if } |\\theta - \\hat{\\theta}| < \\epsilon \\\\ 1 & \\text{otherwise} \\end{cases}$$

一方、事後平均は平方損失下での最適推定量：

$$L(\\theta, \\hat{\\theta}) = (\\theta - \\hat{\\theta})^2$$

正規分布の場合、MAP推定量と事後平均は一致します。

Step 9: 信頼性の評価

MAP推定量の不確実性は事後分散で評価：

$$\\text{Var}[\\mu|\\mathbf{x}] = \\tau_n^2 = \\frac{4}{13} ≈ 0.308$$

MAP推定量の標準誤差：

$$\\text{SE}(\\hat{\\mu}_{MAP}) = \\sqrt{0.308} ≈ 0.555$$

95%信頼区間：

$$[1.985 - 1.96 \\times 0.555, 1.985 + 1.96 \\times 0.555] ≈ [0.897, 3.073]$$

MAP推定の実用的利点

事前知識の活用：専門知識やドメイン情報の統合
小標本性能：データが少ない場合の安定性
過学習の防止：複雑なモデルでの正則化効果
計算の安定性：数値計算上の利点

Step 10: 非共役分布での計算

共役性がない場合のMAP推定：

数値最適化：ニュートン法、準ニュートン法
EM算法：潜在変数がある場合
変分近似：近似的MAP推定
MCMC：サンプリングベースの近似

収束判定基準：

勾配のノルム：$\\|\\nabla \\log p(\\theta|\\mathbf{x})\\| < \\epsilon$
パラメータ変化：$\\|\\theta^{(t+1)} - \\theta^{(t)}\\| < \\delta$
対数尤度変化：$|\\log p(\\theta^{(t+1)}|\\mathbf{x}) - \\log p(\\theta^{(t)}|\\mathbf{x})| < \\gamma$

MAP vs 他の推定手法

推定手法	損失関数	特徴	計算
MAP	0-1損失	事後分布のモード	最適化
事後平均	平方損失	期待値最小化	積分
事後中央値	絶対損失	分位点	数値計算
MLE	なし	尤度最大化	最適化