ベイズ統計学

ベイズの定理、事前分布、事後分布、MCMC法、階層ベイズモデルなど統計検定準1級レベルのベイズ統計理論を学習します。

MAP推定量の理解 レベル1

正規分布$N(μ,σ²=1)$からの標本$x₁=2.1, x₂=1.8, x₃=2.3$について、平均μの事前分布を$N(1,4)$とする。MAP推定量$\hat{μ}_{MAP}$と最尤推定量$\hat{μ}_{MLE}$を比較し、MAP推定量はいくらか。小数第3位まで求めよ。

解説
解答と解説を表示

MAP推定:事後分布の最頻値による点推定

MAP(Maximum A Posteriori)推定量は、事後分布を最大化するパラメータ値で、事前情報と尤度情報を最適に統合した点推定手法です。

MAP推定の基本原理

MAP推定量は事後分布の最大値として定義されます:

$$\\hat{\\theta}_{MAP} = \\arg\\max_\\theta p(\\theta|\\mathbf{x}) = \\arg\\max_\\theta p(\\mathbf{x}|\\theta)p(\\theta)$$

対数事後分布を最大化することで計算します:

$$\\hat{\\theta}_{MAP} = \\arg\\max_\\theta [\\log p(\\mathbf{x}|\\theta) + \\log p(\\theta)]$$

Step 1: 問題設定の整理

  • 観測データ:$x_1 = 2.1, x_2 = 1.8, x_3 = 2.3$(n=3)
  • 尤度:$x_i \\sim N(\\mu, \\sigma^2 = 1)$
  • 事前分布:$\\mu \\sim N(\\mu_0 = 1, \\tau_0^2 = 4)$
  • 求める値:MAP推定量 $\\hat{\\mu}_{MAP}$

Step 2: 基本統計量の計算

$$\\bar{x} = \\frac{x_1 + x_2 + x_3}{3} = \\frac{2.1 + 1.8 + 2.3}{3} = \\frac{6.2}{3} ≈ 2.067$$
$$n = 3$$

Step 3: 対数事後分布の構築

対数尤度:

$$\\log p(\\mathbf{x}|\\mu) = \\sum_{i=1}^3 \\log p(x_i|\\mu) = \\sum_{i=1}^3 \\left[-\\frac{1}{2}\\log(2\\pi) - \\frac{(x_i-\\mu)^2}{2}\\right]$$
$$= -\\frac{3}{2}\\log(2\\pi) - \\frac{1}{2}\\sum_{i=1}^3 (x_i-\\mu)^2$$

対数事前分布:

$$\\log p(\\mu) = -\\frac{1}{2}\\log(2\\pi \\cdot 4) - \\frac{(\\mu-1)^2}{2 \\cdot 4}$$
$$= -\\frac{1}{2}\\log(8\\pi) - \\frac{(\\mu-1)^2}{8}$$

Step 4: 対数事後分布の最大化

対数事後分布:

$$\\log p(\\mu|\\mathbf{x}) \\propto -\\frac{1}{2}\\sum_{i=1}^3 (x_i-\\mu)^2 - \\frac{(\\mu-1)^2}{8}$$

μについて微分して0と置く:

$$\\frac{d}{d\\mu}\\log p(\\mu|\\mathbf{x}) = \\sum_{i=1}^3 (x_i-\\mu) - \\frac{\\mu-1}{4} = 0$$
$$\\sum_{i=1}^3 x_i - 3\\mu - \\frac{\\mu-1}{4} = 0$$
$$\\sum_{i=1}^3 x_i - 3\\mu - \\frac{\\mu}{4} + \\frac{1}{4} = 0$$
$$\\sum_{i=1}^3 x_i + \\frac{1}{4} = \\mu\\left(3 + \\frac{1}{4}\\right) = \\mu \\cdot \\frac{13}{4}$$

Step 5: MAP推定量の計算

$$\\hat{\\mu}_{MAP} = \\frac{\\sum_{i=1}^3 x_i + \\frac{1}{4}}{\\frac{13}{4}} = \\frac{4(\\sum_{i=1}^3 x_i + \\frac{1}{4})}{13}$$
$$= \\frac{4 \\times 6.2 + 4 \\times \\frac{1}{4}}{13} = \\frac{24.8 + 1}{13} = \\frac{25.8}{13} ≈ 1.985$$

より正確な計算:

$$\\hat{\\mu}_{MAP} = \\frac{4 \\times 6.2 + 1}{13} = \\frac{25.8}{13} = 1.984615...$$

小数第3位まで:1.985

共役性を利用した解法

正規-正規共役性により、事後分布は解析的に求まります:

$$\\mu|\\mathbf{x} \\sim N(\\mu_n, \\tau_n^2)$$

事後精度:$\\frac{1}{\\tau_n^2} = \\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2} = \\frac{1}{4} + \\frac{3}{1} = \\frac{13}{4}$

事後平均(=MAP推定量):

$$\\mu_n = \\frac{\\frac{\\mu_0}{\\tau_0^2} + \\frac{n\\bar{x}}{\\sigma^2}}{\\frac{1}{\\tau_0^2} + \\frac{n}{\\sigma^2}} = \\frac{\\frac{1}{4} + \\frac{3 \\times 2.067}{1}}{\\frac{13}{4}}$$
$$= \\frac{0.25 + 6.201}{3.25} = \\frac{6.451}{3.25} ≈ 1.985$$

Step 6: 最尤推定量との比較

最尤推定量:

$$\\hat{\\mu}_{MLE} = \\bar{x} = 2.067$$
推定手法推定値特徴
最尤推定2.067データのみに基づく
MAP推定1.985事前分布による収縮
事前平均1.000事前知識のみ
収縮効果約0.082事前分布方向への調整

Step 7: 重み付き平均としての解釈

MAP推定量は、事前平均とサンプル平均の精度重み付き平均:

$$\\hat{\\mu}_{MAP} = w_0 \\mu_0 + w_1 \\bar{x}$$

重み:

  • $w_0 = \\frac{1/\\tau_0^2}{1/\\tau_0^2 + n/\\sigma^2} = \\frac{1/4}{13/4} = \\frac{1}{13}$(事前情報の重み)
  • $w_1 = \\frac{n/\\sigma^2}{1/\\tau_0^2 + n/\\sigma^2} = \\frac{3}{13/4} = \\frac{12}{13}$(データの重み)
$$\\hat{\\mu}_{MAP} = \\frac{1}{13} \\times 1 + \\frac{12}{13} \\times 2.067 = \\frac{1 + 24.804}{13} = \\frac{25.804}{13} ≈ 1.985$$

MAP推定の特徴

  • 正則化効果:事前分布による極端値の抑制
  • バイアス-バリアンス トレードオフ:若干のバイアスで分散を削減
  • 情報統合:事前知識とデータの最適統合
  • 計算効率:共役分布では解析解が得られる

Step 8: 損失関数の観点

MAP推定量は、0-1損失(絶対損失)下での最適推定量:

$$L(\\theta, \\hat{\\theta}) = \\begin{cases} 0 & \\text{if } |\\theta - \\hat{\\theta}| < \\epsilon \\\\ 1 & \\text{otherwise} \\end{cases}$$

一方、事後平均は平方損失下での最適推定量:

$$L(\\theta, \\hat{\\theta}) = (\\theta - \\hat{\\theta})^2$$

正規分布の場合、MAP推定量と事後平均は一致します。

Step 9: 信頼性の評価

MAP推定量の不確実性は事後分散で評価:

$$\\text{Var}[\\mu|\\mathbf{x}] = \\tau_n^2 = \\frac{4}{13} ≈ 0.308$$

MAP推定量の標準誤差:

$$\\text{SE}(\\hat{\\mu}_{MAP}) = \\sqrt{0.308} ≈ 0.555$$

95%信頼区間:

$$[1.985 - 1.96 \\times 0.555, 1.985 + 1.96 \\times 0.555] ≈ [0.897, 3.073]$$

MAP推定の実用的利点

  • 事前知識の活用:専門知識やドメイン情報の統合
  • 小標本性能:データが少ない場合の安定性
  • 過学習の防止:複雑なモデルでの正則化効果
  • 計算の安定性:数値計算上の利点

Step 10: 非共役分布での計算

共役性がない場合のMAP推定:

  1. 数値最適化:ニュートン法、準ニュートン法
  2. EM算法:潜在変数がある場合
  3. 変分近似:近似的MAP推定
  4. MCMC:サンプリングベースの近似

収束判定基準:

  • 勾配のノルム:$\\|\\nabla \\log p(\\theta|\\mathbf{x})\\| < \\epsilon$
  • パラメータ変化:$\\|\\theta^{(t+1)} - \\theta^{(t)}\\| < \\delta$
  • 対数尤度変化:$|\\log p(\\theta^{(t+1)}|\\mathbf{x}) - \\log p(\\theta^{(t)}|\\mathbf{x})| < \\gamma$

MAP vs 他の推定手法

推定手法損失関数特徴計算
MAP0-1損失事後分布のモード最適化
事後平均平方損失期待値最小化積分
事後中央値絶対損失分位点数値計算
MLEなし尤度最大化最適化
問題 1/10
カテゴリ一覧に戻る