ベイズ統計学

ベイズの定理、事前分布、事後分布、MCMC法、階層ベイズモデルなど統計検定準1級レベルのベイズ統計理論を学習します。

ガンマポアソンモデルの理解 レベル1

あるコールセンターにおいて、1時間あたりの電話件数がポアソン分布Pois(λ)に従うと考えられる。過去のデータから、λに対してガンマ事前分布Gamma(α=3, β=2)を設定した。ある日の1時間で電話が5件あった場合、λの事後平均はいくらか。小数第3位まで求めよ。

解説
解答と解説を表示

ガンマ-ポアソン共役モデルによる事後推論

ガンマ-ポアソン共役モデルは、カウントデータの解析で最も重要なベイズモデルの一つです。ポアソン分布の率パラメータλにガンマ事前分布を設定することで、解析的に事後分布を求めることができます。

ガンマ-ポアソン共役性の利点

ポアソン分布のパラメータλに対してガンマ分布を事前分布とすると、事後分布も同じくガンマ分布になる共役性があります:

  • 事前分布:$\\lambda \\sim \\text{Gamma}(\\alpha, \\beta)$
  • 尤度:$X \\sim \\text{Poisson}(\\lambda)$
  • 事後分布:$\\lambda|x \\sim \\text{Gamma}(\\alpha + \\sum x_i, \\beta + n)$

Step 1: 問題設定の整理

  • 観測データ:1時間で電話5件(x = 5)
  • 観測回数:n = 1(1時間のデータ)
  • 尤度:$X \\sim \\text{Poisson}(\\lambda)$
  • 事前分布:$\\lambda \\sim \\text{Gamma}(\\alpha = 3, \\beta = 2)$

Step 2: ガンマ分布のパラメータ化の確認

ガンマ分布には複数のパラメータ化があります。ここでは形状・率パラメータ化を使用:

$$\\text{Gamma}(\\alpha, \\beta): f(\\lambda) = \\frac{\\beta^\\alpha}{\\Gamma(\\alpha)} \\lambda^{\\alpha-1} e^{-\\beta\\lambda}$$

このパラメータ化での平均と分散:

  • 平均:$E[\\lambda] = \\frac{\\alpha}{\\beta}$
  • 分散:$\\text{Var}[\\lambda] = \\frac{\\alpha}{\\beta^2}$

Step 3: 事前分布の特性

事前分布 $\\text{Gamma}(3, 2)$ の特徴:

$$E[\\lambda] = \\frac{3}{2} = 1.5$$
$$\\text{Var}[\\lambda] = \\frac{3}{2^2} = \\frac{3}{4} = 0.75$$
$$\\text{SD}[\\lambda] = \\sqrt{0.75} ≈ 0.866$$

Step 4: 共役性による事後分布

ガンマ-ポアソン共役性により、事後分布は:

$$\\lambda|x \\sim \\text{Gamma}(\\alpha + \\sum x_i, \\beta + n)$$

観測データを代入:

  • $\\sum x_i = 5$(観測された電話件数)
  • $n = 1$(観測期間数)
$$\\lambda|x \\sim \\text{Gamma}(3 + 5, 2 + 1) = \\text{Gamma}(8, 3)$$

Step 5: 事後平均の計算

$$E[\\lambda|x] = \\frac{\\alpha_{\\text{posterior}}}{\\beta_{\\text{posterior}}} = \\frac{8}{3} = 2.666...$$

小数第3位まで:2.667

Step 6: 推定値の比較と解釈

推定手法推定値解釈
事前平均1.500事前知識のみ
最尤推定5.000観測データのみ(x/n = 5/1)
事後平均2.667事前知識とデータの統合

結果の妥当性チェック

事後平均は事前平均と最尤推定値の間に位置し、これは合理的な結果です:

  • 事前の影響:過去の経験(λ ≈ 1.5)
  • データの影響:今日の観測(λ = 5)
  • 統合結果:バランスの取れた推定(λ ≈ 2.67)

Step 7: 重み付き平均としての解釈

事後平均は、事前平均と観測平均の重み付き平均として表現できます:

$$E[\\lambda|x] = \\frac{\\alpha + \\sum x_i}{\\beta + n} = \\frac{\\alpha}{\\beta + n} + \\frac{\\sum x_i}{\\beta + n}$$
$$= \\frac{\\beta}{\\beta + n} \\cdot \\frac{\\alpha}{\\beta} + \\frac{n}{\\beta + n} \\cdot \\frac{\\sum x_i}{n}$$

重みの計算:

  • 事前の重み:$w_0 = \\frac{\\beta}{\\beta + n} = \\frac{2}{2 + 1} = \\frac{2}{3}$
  • データの重み:$w_1 = \\frac{n}{\\beta + n} = \\frac{1}{2 + 1} = \\frac{1}{3}$
$$E[\\lambda|x] = \\frac{2}{3} \\times 1.5 + \\frac{1}{3} \\times 5 = 1.0 + 1.667 = 2.667$$

Step 8: 事後分散と信頼性

事後分散:

$$\\text{Var}[\\lambda|x] = \\frac{\\alpha_{\\text{posterior}}}{\\beta_{\\text{posterior}}^2} = \\frac{8}{3^2} = \\frac{8}{9} ≈ 0.889$$

事後標準偏差:

$$\\text{SD}[\\lambda|x] = \\sqrt{\\frac{8}{9}} ≈ 0.943$$

Step 9: 信頼区間の構築

ガンマ分布の分位点を使用して95%信頼区間を構築:

$$P(q_{0.025} < \\lambda < q_{0.975}|x) = 0.95$$

Gamma(8, 3)の分位点(近似値):

  • $q_{0.025} ≈ 1.33$
  • $q_{0.975} ≈ 4.68$

95%信頼区間:[1.33, 4.68]

解釈

  • 点推定:1時間あたり約2.67件の電話を予想
  • 不確実性:95%の確率で1.33〜4.68件の範囲
  • 意思決定:スタッフ配置やシステム容量の計画に活用

Step 10: 予測分布(事後予測分布)

翌日の1時間あたりの電話件数Yの予測分布は負の二項分布になります:

$$Y|x \\sim \\text{NegBin}(r = 8, p = \\frac{3}{3+1} = 0.75)$$

予測平均:

$$E[Y|x] = \\frac{r(1-p)}{p} = \\frac{8 \\times 0.25}{0.75} = \\frac{2}{0.75} = 2.667$$

これは事後平均と一致します。

Step 11: モデルの妥当性と仮定

ポアソン分布の仮定

  • 独立性:各電話は他の電話と独立
  • 定常性:時間内で率λが一定
  • 稀現象:短時間での重複が無視できる

ガンマ事前分布の選択理由

  • 正の値:率パラメータλ > 0の制約を自然に満たす
  • 柔軟性:形状パラメータで様々な形状を表現
  • 解釈性:αは「仮想的な観測件数」、βは「仮想的な観測期間」

Step 12: 逐次更新(追加データがある場合)

2時間目に追加で3件の電話があった場合:

$$\\lambda|x_1, x_2 \\sim \\text{Gamma}(8 + 3, 3 + 1) = \\text{Gamma}(11, 4)$$
$$E[\\lambda|x_1, x_2] = \\frac{11}{4} = 2.75$$

このように、ベイズ推定では新しいデータで容易に更新できます。

問題 1/10
カテゴリ一覧に戻る