ベイズ統計学

ベイズの定理、事前分布、事後分布、MCMC法、階層ベイズモデルなど統計検定準1級レベルのベイズ統計理論を学習します。

ベイズ情報量基準の応用 レベル1

2つの回帰モデルを比較している。モデル1は3つのパラメータ(k₁=3)で対数尤度 -45.2、モデル2は5つのパラメータ(k₂=5)で対数尤度 -42.8である。サンプルサイズn=100の場合、ベイズ情報量基準(BIC)によってどちらのモデルが選択されるか。それぞれのBIC値を小数第1位まで求めて比較せよ。

解説
解答と解説を表示

ベイズ情報量基準(BIC)によるモデル選択

ベイズ情報量基準(Bayesian Information Criterion, BIC)は、モデルの適合度と複雑さを同時に考慮したモデル選択指標で、過学習を防ぐための重要な手法です。

BIC の基本定義

BIC は以下の式で定義されます:

$$\\text{BIC} = -2 \\log L(\\hat{\\theta}) + k \\log n$$

ここで:

  • $\\log L(\\hat{\\theta})$:最大対数尤度
  • $k$:パラメータ数
  • $n$:サンプルサイズ

選択基準:BIC値が小さいモデルが選択される

Step 1: 問題設定の確認

モデルパラメータ数(k)対数尤度サンプルサイズ(n)
モデル13-45.2100
モデル25-42.8100

Step 2: モデル1のBIC計算

$$\\text{BIC}_1 = -2 \\times (-45.2) + 3 \\times \\log(100)$$
$$= 90.4 + 3 \\times \\log(100)$$

$\\log(100) = \\log(10^2) = 2\\log(10) ≈ 2 \\times 2.303 = 4.606$

$$\\text{BIC}_1 = 90.4 + 3 \\times 4.606 = 90.4 + 13.818 = 104.218$$

小数第1位まで:BIC₁ = 104.2

Step 3: モデル2のBIC計算

$$\\text{BIC}_2 = -2 \\times (-42.8) + 5 \\times \\log(100)$$
$$= 85.6 + 5 \\times 4.606 = 85.6 + 23.030 = 108.630$$

小数第1位まで:BIC₂ = 108.6

Step 4: モデル比較と選択

モデルBIC値判定
モデル1104.2選択される
モデル2108.6棄却される
BIC差4.4中程度の差

結論:BIC₁ < BIC₂ なので、モデル1が選択される

計算の再確認

モデル1

$$\\text{BIC}_1 = -2(-45.2) + 3\\log(100) = 90.4 + 3 \\times 4.605 = 90.4 + 13.815 = 104.215 ≈ 104.2$$

モデル2

$$\\text{BIC}_2 = -2(-42.8) + 5\\log(100) = 85.6 + 5 \\times 4.605 = 85.6 + 23.025 = 108.625 ≈ 108.6$$

Step 5: BIC差の解釈

BIC差 = 108.6 - 104.2 = 4.4

BIC差の判定基準(Kass & Raftery基準)

BIC差(Δ)証拠の強さ解釈
0 ≤ Δ < 2弱いわずかな差
2 ≤ Δ < 6中程度明確な差
6 ≤ Δ < 10強い強い証拠
Δ ≥ 10非常に強い決定的な差

Δ = 4.4なので、モデル1への中程度の証拠があります。

Step 6: 適合度と複雑さのトレードオフ分析

要素モデル1モデル2解釈
適合度項
$-2\\log L$
90.485.6モデル2の方が適合良好
複雑さ項
$k\\log n$
13.823.0モデル1の方が単純
総合評価
BIC
104.2108.6モデル1が最適

分析結果

  • モデル2は適合度で優れる(対数尤度が高い)
  • しかし複雑さペナルティが大きすぎる
  • 総合的にはモデル1の方がバランスが良い

Step 7: 他の情報量基準との比較

AIC(赤池情報量基準)での比較

参考として、AICでも計算してみます:

$$\\text{AIC} = -2\\log L + 2k$$

モデル1:AIC₁ = 90.4 + 2×3 = 96.4

モデル2:AIC₂ = 85.6 + 2×5 = 95.6

AICではモデル2が選択される(95.6 < 96.4)

基準モデル1モデル2選択
BIC104.2108.6モデル1
AIC96.495.6モデル2

Step 8: BICとAICの違いの理解

ペナルティ項の比較

基準ペナルティ項特徴傾向
BIC$k\\log n$サンプルサイズ依存より簡潔なモデルを選好
AIC$2k$固定ペナルティ予測精度重視

サンプルサイズn=100の場合:

  • BIC ペナルティ:$\\log(100) ≈ 4.6$ per parameter
  • AIC ペナルティ:$2$ per parameter

BICの方が約2.3倍厳しいペナルティを課します。

Step 9: 選択指針

どちらの基準を使うべきか

  • BIC選択の場合
    • 解釈しやすいモデルが欲しい
    • 真のモデルが候補にあると信じる
    • サンプルサイズが大きい
  • AIC選択の場合
    • 予測精度を重視する
    • 候補モデルはすべて近似と考える
    • サンプルサイズが小さい

Step 10: ベイズファクターとの関係

BIC は近似ベイズファクターと解釈できます:

$$\\text{BF}_{12} ≈ \\exp\\left(\\frac{\\text{BIC}_2 - \\text{BIC}_1}{2}\\right)$$
$$= \\exp\\left(\\frac{108.6 - 104.2}{2}\\right) = \\exp(2.2) ≈ 9.0$$

これは、モデル1がモデル2より約9倍支持されることを意味します。

BIC使用時の注意点

  • モデル仮定:正規誤差、線形性などの仮定が重要
  • サンプルサイズ:小標本では過度にペナルティが大きい可能性
  • モデル数:多数のモデル比較では多重比較問題
  • 計算精度:対数尤度の計算精度が結果に影響

結論

BIC基準では、モデル1(BIC = 104.2)がモデル2(BIC = 108.6)より選択されます。これは、モデル2の若干の適合度向上が、追加された2つのパラメータによる複雑さ増加を正当化できないためです。

問題 1/10
カテゴリ一覧に戻る