ベイズ推定における事後分布近似
複雑なベイズモデルでは事後分布$p(\theta|\mathbf{x})$が解析的に求まらない場合が多く、様々な近似手法が開発されています。
事後分布の基本的な形
Step 1: ベイズの定理
事後分布は次のように定義されます:
$p(\theta|\mathbf{x}) = \frac{p(\mathbf{x}|\theta)p(\theta)}{p(\mathbf{x})} = \frac{\text{尤度} \times \text{事前分布}}{\text{周辺尤度}}$
ここで周辺尤度$p(\mathbf{x}) = \int p(\mathbf{x}|\theta)p(\theta)d\theta$の計算が困難な場合が多いです。
各近似手法の理論的基礎
Step 2: ラプラス近似
事後分布を事後モード周りの2次のテイラー展開で近似:
$\log p(\theta|\mathbf{x}) \approx \log p(\hat{\theta}|\mathbf{x}) - \frac{1}{2}(\theta - \hat{\theta})^T H (\theta - \hat{\theta})$
ここで$H$はヘッセ行列(負の2階微分)、$\hat{\theta}$は事後モードです。これにより事後分布を正規分布で近似します。
Step 3: 変分推論(Variational Inference)
事後分布$p(\theta|\mathbf{x})$を扱いやすい分布族$q(\theta)$で近似し、KLダイバージェンスを最小化:
$q^*(\theta) = \arg\min_{q \in \mathcal{Q}} \text{KL}(q(\theta) \| p(\theta|\mathbf{x}))$
実際には証拠下界(ELBO)を最大化:
$\text{ELBO}(q) = \mathbb{E}_q[\log p(\mathbf{x}, \theta)] - \mathbb{E}_q[\log q(\theta)]$
Step 4: マルコフ連鎖モンテカルロ法(MCMC)
事後分布からの標本生成により期待値を近似:
$\mathbb{E}[f(\theta)|\mathbf{x}] \approx \frac{1}{N}\sum_{i=1}^N f(\theta^{(i)})$
ここで$\theta^{(i)}$は事後分布からのMCMC標本です。メトロポリス・ヘイスティングス法やハミルトニアンモンテカルロなどがあります。
Step 5: ギブスサンプリング
多次元パラメータ$\theta = (\theta_1, \ldots, \theta_p)$について、各成分を条件付き分布から交互にサンプリング:
$\theta_j^{(t+1)} \sim p\left(\theta_j \left| \theta_1^{(t+1)}, \ldots, \theta_{j-1}^{(t+1)}, \theta_{j+1}^{(t)}, \ldots, \theta_p^{(t)}, \mathbf{x}\right.\right)$
各手法の特徴と適用場面
近似手法の比較
| 手法 | 計算コスト | 精度 | 適用範囲 | 実装難易度 |
|---|
| ラプラス近似 | 低 | 中(単峰性仮定) | 中規模問題 | 低 |
| 変分推論 | 中 | 中(分布族制約) | 大規模問題 | 中 |
| MCMC | 高 | 高(収束保証) | 広範囲 | 中 |
| ギブスサンプリング | 中 | 高(条件付き分布必要) | 特定構造 | 低 |
最尤推定法の位置づけ
Step 6: 最尤推定法の特性
最尤推定法は点推定手法であり、事後分布の近似手法ではありません:
$\hat{\theta}_{\text{ML}} = \arg\max_{\theta} p(\mathbf{x}|\theta)$
特徴:
- 頻度論的アプローチ:事前分布を使用しない
- 点推定:分布ではなく単一の推定値
- 不確実性の評価なし:推定値の信頼性を直接評価できない
- 事前情報の非考慮:専門知識を組み込めない