ガンマ-ポアソン共役モデルによる事後推論
ガンマ-ポアソン共役モデルは、カウントデータの解析で最も重要なベイズモデルの一つです。ポアソン分布の率パラメータλにガンマ事前分布を設定することで、解析的に事後分布を求めることができます。
ガンマ-ポアソン共役性の利点
ポアソン分布のパラメータλに対してガンマ分布を事前分布とすると、事後分布も同じくガンマ分布になる共役性があります:
- 事前分布:$\lambda \sim \text{Gamma}(\alpha, \beta)$
- 尤度:$X \sim \text{Poisson}(\lambda)$
- 事後分布:$\lambda|x \sim \text{Gamma}(\alpha + \sum x_i, \beta + n)$
Step 1: 問題設定の整理
- 観測データ:1時間で電話5件(x = 5)
- 観測回数:n = 1(1時間のデータ)
- 尤度:$X \sim \text{Poisson}(\lambda)$
- 事前分布:$\lambda \sim \text{Gamma}(\alpha = 3, \beta = 2)$
Step 2: ガンマ分布のパラメータ化の確認
ガンマ分布には複数のパラメータ化があります。ここでは形状・率パラメータ化を使用:
$\text{Gamma}(\alpha, \beta): f(\lambda) = \frac{\beta^\alpha}{\Gamma(\alpha)} \lambda^{\alpha-1} e^{-\beta\lambda}$
このパラメータ化での平均と分散:
- 平均:$E[\lambda] = \frac{\alpha}{\beta}$
- 分散:$\text{Var}[\lambda] = \frac{\alpha}{\beta^2}$
Step 3: 事前分布の特性
事前分布 $\text{Gamma}(3, 2)$ の特徴:
$E[\lambda] = \frac{3}{2} = 1.5$
$\text{Var}[\lambda] = \frac{3}{2^2} = \frac{3}{4} = 0.75$
$\text{SD}[\lambda] = \sqrt{0.75} ≈ 0.866$
Step 4: 共役性による事後分布
ガンマ-ポアソン共役性により、事後分布は:
$\lambda|x \sim \text{Gamma}(\alpha + \sum x_i, \beta + n)$
観測データを代入:
- $\sum x_i = 5$(観測された電話件数)
- $n = 1$(観測期間数)
$\lambda|x \sim \text{Gamma}(3 + 5, 2 + 1) = \text{Gamma}(8, 3)$
Step 5: 事後平均の計算
$E[\lambda|x] = \frac{\alpha_{\text{posterior}}}{\beta_{\text{posterior}}} = \frac{8}{3} = 2.666...$
小数第3位まで:2.667
Step 6: 推定値の比較と解釈
| 推定手法 | 推定値 | 解釈 |
|---|
| 事前平均 | 1.500 | 事前知識のみ |
| 最尤推定 | 5.000 | 観測データのみ(x/n = 5/1) |
| 事後平均 | 2.667 | 事前知識とデータの統合 |
結果の妥当性チェック
事後平均は事前平均と最尤推定値の間に位置し、これは合理的な結果です:
- 事前の影響:過去の経験(λ ≈ 1.5)
- データの影響:今日の観測(λ = 5)
- 統合結果:バランスの取れた推定(λ ≈ 2.67)
Step 7: 重み付き平均としての解釈
事後平均は、事前平均と観測平均の重み付き平均として表現できます:
$E[\lambda|x] = \frac{\alpha + \sum x_i}{\beta + n} = \frac{\alpha}{\beta + n} + \frac{\sum x_i}{\beta + n}$
$= \frac{\beta}{\beta + n} \cdot \frac{\alpha}{\beta} + \frac{n}{\beta + n} \cdot \frac{\sum x_i}{n}$
重みの計算:
- 事前の重み:$w_0 = \frac{\beta}{\beta + n} = \frac{2}{2 + 1} = \frac{2}{3}$
- データの重み:$w_1 = \frac{n}{\beta + n} = \frac{1}{2 + 1} = \frac{1}{3}$
$E[\lambda|x] = \frac{2}{3} \times 1.5 + \frac{1}{3} \times 5 = 1.0 + 1.667 = 2.667$
Step 8: 事後分散と信頼性
事後分散:
$\text{Var}[\lambda|x] = \frac{\alpha_{\text{posterior}}}{\beta_{\text{posterior}}^2} = \frac{8}{3^2} = \frac{8}{9} ≈ 0.889$
事後標準偏差:
$\text{SD}[\lambda|x] = \sqrt{\frac{8}{9}} ≈ 0.943$
Step 9: 信頼区間の構築
ガンマ分布の分位点を使用して95%信頼区間を構築:
$P(q_{0.025} < \lambda < q_{0.975}|x) = 0.95$
Gamma(8, 3)の分位点(近似値):
- $q_{0.025} ≈ 1.33$
- $q_{0.975} ≈ 4.68$
95%信頼区間:[1.33, 4.68]
解釈
- 点推定:1時間あたり約2.67件の電話を予想
- 不確実性:95%の確率で1.33〜4.68件の範囲
- 意思決定:スタッフ配置やシステム容量の計画に活用
Step 10: 予測分布(事後予測分布)
翌日の1時間あたりの電話件数Yの予測分布は負の二項分布になります:
$Y|x \sim \text{NegBin}(r = 8, p = \frac{3}{3+1} = 0.75)$
予測平均:
$E[Y|x] = \frac{r(1-p)}{p} = \frac{8 \times 0.25}{0.75} = \frac{2}{0.75} = 2.667$
これは事後平均と一致します。
Step 11: モデルの妥当性と仮定
ポアソン分布の仮定
- 独立性:各電話は他の電話と独立
- 定常性:時間内で率λが一定
- 稀現象:短時間での重複が無視できる
ガンマ事前分布の選択理由
- 正の値:率パラメータλ > 0の制約を自然に満たす
- 柔軟性:形状パラメータで様々な形状を表現
- 解釈性:αは「仮想的な観測件数」、βは「仮想的な観測期間」
Step 12: 逐次更新(追加データがある場合)
2時間目に追加で3件の電話があった場合:
$\lambda|x_1, x_2 \sim \text{Gamma}(8 + 3, 3 + 1) = \text{Gamma}(11, 4)$
$E[\lambda|x_1, x_2] = \frac{11}{4} = 2.75$
このように、ベイズ推定では新しいデータで容易に更新できます。