ベイズの定理、事前分布、事後分布、MCMC法、階層ベイズモデルなど統計検定準1級レベルのベイズ統計理論を学習します。
2つの回帰モデルを比較している。モデル1は3つのパラメータ(k₁=3)で対数尤度 -45.2、モデル2は5つのパラメータ(k₂=5)で対数尤度 -42.8である。サンプルサイズn=100の場合、ベイズ情報量基準(BIC)によってどちらのモデルが選択されるか。それぞれのBIC値を小数第1位まで求めて比較せよ。
ベイズ情報量基準(Bayesian Information Criterion, BIC)は、モデルの適合度と複雑さを同時に考慮したモデル選択指標で、過学習を防ぐための重要な手法です。
BIC は以下の式で定義されます:
ここで:
選択基準:BIC値が小さいモデルが選択される
Step 1: 問題設定の確認
モデル | パラメータ数(k) | 対数尤度 | サンプルサイズ(n) |
---|---|---|---|
モデル1 | 3 | -45.2 | 100 |
モデル2 | 5 | -42.8 | 100 |
Step 2: モデル1のBIC計算
$\\log(100) = \\log(10^2) = 2\\log(10) ≈ 2 \\times 2.303 = 4.606$
小数第1位まで:BIC₁ = 104.2
Step 3: モデル2のBIC計算
小数第1位まで:BIC₂ = 108.6
Step 4: モデル比較と選択
モデル | BIC値 | 判定 |
---|---|---|
モデル1 | 104.2 | 選択される |
モデル2 | 108.6 | 棄却される |
BIC差 | 4.4 | 中程度の差 |
結論:BIC₁ < BIC₂ なので、モデル1が選択される
モデル1:
モデル2:
Step 5: BIC差の解釈
BIC差 = 108.6 - 104.2 = 4.4
BIC差(Δ) | 証拠の強さ | 解釈 |
---|---|---|
0 ≤ Δ < 2 | 弱い | わずかな差 |
2 ≤ Δ < 6 | 中程度 | 明確な差 |
6 ≤ Δ < 10 | 強い | 強い証拠 |
Δ ≥ 10 | 非常に強い | 決定的な差 |
Δ = 4.4なので、モデル1への中程度の証拠があります。
Step 6: 適合度と複雑さのトレードオフ分析
要素 | モデル1 | モデル2 | 解釈 |
---|---|---|---|
適合度項 $-2\\log L$ | 90.4 | 85.6 | モデル2の方が適合良好 |
複雑さ項 $k\\log n$ | 13.8 | 23.0 | モデル1の方が単純 |
総合評価 BIC | 104.2 | 108.6 | モデル1が最適 |
分析結果:
Step 7: 他の情報量基準との比較
参考として、AICでも計算してみます:
モデル1:AIC₁ = 90.4 + 2×3 = 96.4
モデル2:AIC₂ = 85.6 + 2×5 = 95.6
AICではモデル2が選択される(95.6 < 96.4)
基準 | モデル1 | モデル2 | 選択 |
---|---|---|---|
BIC | 104.2 | 108.6 | モデル1 |
AIC | 96.4 | 95.6 | モデル2 |
Step 8: BICとAICの違いの理解
基準 | ペナルティ項 | 特徴 | 傾向 |
---|---|---|---|
BIC | $k\\log n$ | サンプルサイズ依存 | より簡潔なモデルを選好 |
AIC | $2k$ | 固定ペナルティ | 予測精度重視 |
サンプルサイズn=100の場合:
BICの方が約2.3倍厳しいペナルティを課します。
Step 9: 選択指針
Step 10: ベイズファクターとの関係
BIC は近似ベイズファクターと解釈できます:
これは、モデル1がモデル2より約9倍支持されることを意味します。
BIC基準では、モデル1(BIC = 104.2)がモデル2(BIC = 108.6)より選択されます。これは、モデル2の若干の適合度向上が、追加された2つのパラメータによる複雑さ増加を正当化できないためです。