経験ベイズ法の実践 - 問題演習問題18

経験ベイズ法の実践レベル1

複数の野球選手の打率を推定する問題を考える。選手$i$の打数を$n_i$、安打数を$y_i$とし、真の打率を$p_i$とする。事前分布を$p_i \sim \text{Beta}(\alpha, \beta)$とする階層ベイズモデルにおいて、経験ベイズ法により$\alpha = 2, \beta = 5$と推定された。選手Aは20打数8安打の成績である。経験ベイズ推定による選手Aの打率を求めよ。答えは小数第2位まで求めよ。

解説

解答と解説を表示

<h4>階層ベイズモデルと経験ベイズ法</h4><p>経験ベイズ法は、階層ベイズモデルにおいてハイパーパラメータをデータから推定し、ベイズ推定を行う手法です。</p><h4>問題設定の数学的定式化</h4><p class='step'><strong>Step 1: 階層ベイズモデルの構造</strong></p><p>3つの階層からなるモデル：</p><ul><li><strong>第1階層（データ層）</strong>：$y_i | p_i, n_i \sim \text{Binomial}(n_i, p_i)

lt;/li><li><strong>第2階層（個体パラメータ層）</strong>：$p_i | \alpha, \beta \sim \text{Beta}(\alpha, \beta)

lt;/li><li><strong>第3階層（ハイパーパラメータ層）</strong>：$\alpha, \beta$は未知パラメータ</li></ul><p class='step'><strong>Step 2: ベータ分布の性質</strong></p><p>ベータ分布$\text{Beta}(\alpha, \beta)$の確率密度関数：</p><div class='formula'>$f(p; \alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha)\Gamma(\beta)} p^{\alpha-1} (1-p)^{\beta-1}

lt;/div><p>期待値と分散：</p><div class='formula'>$E[p] = \frac{\alpha}{\alpha + \beta}, \quad \text{Var}(p) = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta + 1)}

lt;/div><h4>共役事前分布の性質</h4><p class='step'><strong>Step 3: 二項分布とベータ分布の共役性</strong></p><p>二項分布の尤度とベータ事前分布の組み合わせにより、事後分布も解析的に求まります：</p><div class='formula'>$p_i | y_i, n_i, \alpha, \beta \sim \text{Beta}(\alpha + y_i, \beta + n_i - y_i)

lt;/div><p>これは共役事前分布の重要な性質です。</p><p class='step'><strong>Step 4: 事後分布の導出</strong></p><p>ベイズの定理により：</p><div class='formula'>$\pi(p_i | y_i) \propto L(p_i | y_i) \cdot \pi(p_i)

lt;/div><div class='formula'>$\propto p_i^{y_i} (1-p_i)^{n_i-y_i} \cdot p_i^{\alpha-1} (1-p_i)^{\beta-1}

lt;/div><div class='formula'>$= p_i^{\alpha+y_i-1} (1-p_i)^{\beta+n_i-y_i-1}

lt;/div><p>これは$\text{Beta}(\alpha + y_i, \beta + n_i - y_i)$の核と一致します。</p><h4>経験ベイズ推定の実装</h4><p class='step'><strong>Step 5: 選手Aのデータ</strong></p><p>選手Aの成績：</p><ul><li>打数：$n_A = 20

lt;/li><li>安打数：$y_A = 8

lt;/li></ul><p>経験ベイズ法で推定されたハイパーパラメータ：</p><ul><li>$\alpha = 2

lt;/li><li>$\beta = 5

lt;/li></ul><p class='step'><strong>Step 6: 事後分布の計算</strong></p><p>選手Aの打率$p_A$の事後分布：</p><div class='formula'>$p_A | y_A, n_A \sim \text{Beta}(\alpha + y_A, \beta + n_A - y_A)

lt;/div><div class='formula'>$= \text{Beta}(2 + 8, 5 + 20 - 8) = \text{Beta}(10, 17)

lt;/div><p class='step'><strong>Step 7: ベイズ推定値の計算</strong></p><p>事後分布の期待値（ベイズ推定値）：</p><div class='formula'>$\hat{p}_A = E[p_A | y_A, n_A] = \frac{\alpha + y_A}{\alpha + y_A + \beta + n_A - y_A}

lt;/div><div class='formula'>$= \frac{\alpha + y_A}{\alpha + \beta + n_A} = \frac{2 + 8}{2 + 5 + 20} = \frac{10}{27}

lt;/div><div class='formula'>$= 0.370370... \approx 0.370

lt;/div><h4>推定値の解釈と特性</h4><p class='step'><strong>Step 8: 収縮効果の分析</strong></p><p>経験ベイズ推定値を最尤推定値と比較：</p><ul><li><strong>最尤推定値</strong>：$\hat{p}_{ML} = \frac{y_A}{n_A} = \frac{8}{20} = 0.400

lt;/li><li><strong>経験ベイズ推定値</strong>：$\hat{p}_{EB} = \frac{10}{27} = 0.370

lt;/li><li><strong>事前期待値</strong>：$\frac{\alpha}{\alpha + \beta} = \frac{2}{7} = 0.286

lt;/li></ul><p>経験ベイズ推定値は最尤推定値と事前期待値の加重平均になっています。</p><p class='step'><strong>Step 9: 重み付けの構造</strong></p><p>経験ベイズ推定値の別表現：</p><div class='formula'>$\hat{p}_{EB} = \frac{n_A}{n_A + \alpha + \beta} \cdot \hat{p}_{ML} + \frac{\alpha + \beta}{n_A + \alpha + \beta} \cdot \frac{\alpha}{\alpha + \beta}

lt;/div><div class='formula'>$= \frac{20}{27} \times 0.400 + \frac{7}{27} \times 0.286 = 0.296 + 0.074 = 0.370

lt;/div><div class='key-point'><div class='key-point-title'>経験ベイズ法の特徴</div><ul><li><strong>収縮推定</strong>：極端な値を事前分布の中心に向けて調整</li><li><strong>情報共有</strong>：他の選手のデータも間接的に活用</li><li><strong>過学習の抑制</strong>：小標本での過度な推定を防ぐ</li><li><strong>自動調整</strong>：データから最適な収縮度を学習</li></ul></div><h4>経験ベイズ法の理論的背景</h4><p class='step'><strong>Step 10: ハイパーパラメータの推定</strong></p><p>実際の経験ベイズ法では、周辺尤度を最大化して$\alpha, \beta$を推定します：</p><div class='formula'>$L(\alpha, \beta) = \prod_{i=1}^k \binom{n_i}{y_i} \frac{B(\alpha + y_i, \beta + n_i - y_i)}{B(\alpha, \beta)}

lt;/div><p>ここで$B(\cdot, \cdot)$はベータ関数、$k$は選手数です。</p><p class='step'><strong>Step 11: 予測分布と区間推定</strong></p><p>事後分布$\text{Beta}(10, 17)$から：</p><ul><li><strong>事後分散</strong>：$\text{Var}(p_A | \text{data}) = \frac{10 \times 17}{27^2 \times 28} = \frac{170}{20412} \approx 0.0083

lt;/li><li><strong>95%信頼区間</strong>：ベータ分布の分位数を用いて計算可能</li></ul><p class='step'><strong>Step 12: 実用的な修正計算</strong></p><p>より正確な計算：</p><div class='formula'>$\hat{p}_A = \frac{10}{27} = 0.370370370... ≈ 0.370

lt;/div>

統計的推測（推定）