ベイズ情報量基準(BIC)によるモデル選択
ベイズ情報量基準(Bayesian Information Criterion, BIC)は、モデルの適合度と複雑さを同時に考慮したモデル選択指標で、過学習を防ぐための重要な手法です。
BIC の基本定義
BIC は以下の式で定義されます:
$\text{BIC} = -2 \log L(\hat{\theta}) + k \log n$
ここで:
- $\log L(\hat{\theta})$:最大対数尤度
- $k$:パラメータ数
- $n$:サンプルサイズ
選択基準:BIC値が小さいモデルが選択される
Step 1: 問題設定の確認
| モデル | パラメータ数(k) | 対数尤度 | サンプルサイズ(n) |
|---|
| モデル1 | 3 | -45.2 | 100 |
| モデル2 | 5 | -42.8 | 100 |
Step 2: モデル1のBIC計算
$\text{BIC}_1 = -2 \times (-45.2) + 3 \times \log(100)$
$= 90.4 + 3 \times \log(100)$
$\log(100) = \log(10^2) = 2\log(10) ≈ 2 \times 2.303 = 4.606$
$\text{BIC}_1 = 90.4 + 3 \times 4.606 = 90.4 + 13.818 = 104.218$
小数第1位まで:BIC₁ = 104.2
Step 3: モデル2のBIC計算
$\text{BIC}_2 = -2 \times (-42.8) + 5 \times \log(100)$
$= 85.6 + 5 \times 4.606 = 85.6 + 23.030 = 108.630$
小数第1位まで:BIC₂ = 108.6
Step 4: モデル比較と選択
| モデル | BIC値 | 判定 |
|---|
| モデル1 | 104.2 | 選択される |
| モデル2 | 108.6 | 棄却される |
| BIC差 | 4.4 | 中程度の差 |
結論:BIC₁ < BIC₂ なので、モデル1が選択される
計算の再確認
モデル1:
$\text{BIC}_1 = -2(-45.2) + 3\log(100) = 90.4 + 3 \times 4.605 = 90.4 + 13.815 = 104.215 ≈ 104.2$
モデル2:
$\text{BIC}_2 = -2(-42.8) + 5\log(100) = 85.6 + 5 \times 4.605 = 85.6 + 23.025 = 108.625 ≈ 108.6$
Step 5: BIC差の解釈
BIC差 = 108.6 - 104.2 = 4.4
BIC差の判定基準(Kass & Raftery基準)
| BIC差(Δ) | 証拠の強さ | 解釈 |
|---|
| 0 ≤ Δ < 2 | 弱い | わずかな差 |
| 2 ≤ Δ < 6 | 中程度 | 明確な差 |
| 6 ≤ Δ < 10 | 強い | 強い証拠 |
| Δ ≥ 10 | 非常に強い | 決定的な差 |
Δ = 4.4なので、モデル1への中程度の証拠があります。
Step 6: 適合度と複雑さのトレードオフ分析
| 要素 | モデル1 | モデル2 | 解釈 |
|---|
適合度項 $-2\log L$ | 90.4 | 85.6 | モデル2の方が適合良好 |
複雑さ項 $k\log n$ | 13.8 | 23.0 | モデル1の方が単純 |
総合評価 BIC | 104.2 | 108.6 | モデル1が最適 |
分析結果:
- モデル2は適合度で優れる(対数尤度が高い)
- しかし複雑さペナルティが大きすぎる
- 総合的にはモデル1の方がバランスが良い
Step 7: 他の情報量基準との比較
AIC(赤池情報量基準)での比較
参考として、AICでも計算してみます:
$\text{AIC} = -2\log L + 2k$
モデル1:AIC₁ = 90.4 + 2×3 = 96.4
モデル2:AIC₂ = 85.6 + 2×5 = 95.6
AICではモデル2が選択される(95.6 < 96.4)
| 基準 | モデル1 | モデル2 | 選択 |
|---|
| BIC | 104.2 | 108.6 | モデル1 |
| AIC | 96.4 | 95.6 | モデル2 |
Step 8: BICとAICの違いの理解
ペナルティ項の比較
| 基準 | ペナルティ項 | 特徴 | 傾向 |
|---|
| BIC | $k\log n$ | サンプルサイズ依存 | より簡潔なモデルを選好 |
| AIC | $2k$ | 固定ペナルティ | 予測精度重視 |
サンプルサイズn=100の場合:
- BIC ペナルティ:$\log(100) ≈ 4.6$ per parameter
- AIC ペナルティ:$2$ per parameter
BICの方が約2.3倍厳しいペナルティを課します。
Step 9: 選択指針
どちらの基準を使うべきか
- BIC選択の場合:
- 解釈しやすいモデルが欲しい
- 真のモデルが候補にあると信じる
- サンプルサイズが大きい
- AIC選択の場合:
- 予測精度を重視する
- 候補モデルはすべて近似と考える
- サンプルサイズが小さい
Step 10: ベイズファクターとの関係
BIC は近似ベイズファクターと解釈できます:
$\text{BF}_{12} ≈ \exp\left(\frac{\text{BIC}_2 - \text{BIC}_1}{2}\right)$
$= \exp\left(\frac{108.6 - 104.2}{2}\right) = \exp(2.2) ≈ 9.0$
これは、モデル1がモデル2より約9倍支持されることを意味します。
BIC使用時の注意点
- モデル仮定:正規誤差、線形性などの仮定が重要
- サンプルサイズ:小標本では過度にペナルティが大きい可能性
- モデル数:多数のモデル比較では多重比較問題
- 計算精度:対数尤度の計算精度が結果に影響
結論
BIC基準では、モデル1(BIC = 104.2)がモデル2(BIC = 108.6)より選択されます。これは、モデル2の若干の適合度向上が、追加された2つのパラメータによる複雑さ増加を正当化できないためです。