ベイズ情報量基準の応用 - ベイズ統計学問題16

ベイズ情報量基準の応用レベル1

2つの回帰モデルを比較している。モデル1は3つのパラメータ（k₁=3）で対数尤度 -45.2、モデル2は5つのパラメータ（k₂=5）で対数尤度 -42.8である。サンプルサイズn=100の場合、ベイズ情報量基準（BIC）によってどちらのモデルが選択されるか。それぞれのBIC値を小数第1位まで求めて比較せよ。

解説

解答と解説を表示

ベイズ情報量基準（BIC）によるモデル選択

ベイズ情報量基準（Bayesian Information Criterion, BIC）は、モデルの適合度と複雑さを同時に考慮したモデル選択指標で、過学習を防ぐための重要な手法です。

BIC の基本定義

BIC は以下の式で定義されます：

$$\\text{BIC} = -2 \\log L(\\hat{\\theta}) + k \\log n$$

ここで：

$\\log L(\\hat{\\theta})$：最大対数尤度
$k$：パラメータ数
$n$：サンプルサイズ

選択基準：BIC値が小さいモデルが選択される

Step 1: 問題設定の確認

モデル	パラメータ数(k)	対数尤度	サンプルサイズ(n)
モデル1	3	-45.2	100
モデル2	5	-42.8	100

Step 2: モデル1のBIC計算

$$\\text{BIC}_1 = -2 \\times (-45.2) + 3 \\times \\log(100)$$

$$= 90.4 + 3 \\times \\log(100)$$

$\\log(100) = \\log(10^2) = 2\\log(10) ≈ 2 \\times 2.303 = 4.606$

$$\\text{BIC}_1 = 90.4 + 3 \\times 4.606 = 90.4 + 13.818 = 104.218$$

小数第1位まで：BIC₁ = 104.2

Step 3: モデル2のBIC計算

$$\\text{BIC}_2 = -2 \\times (-42.8) + 5 \\times \\log(100)$$

$$= 85.6 + 5 \\times 4.606 = 85.6 + 23.030 = 108.630$$

小数第1位まで：BIC₂ = 108.6

Step 4: モデル比較と選択

モデル	BIC値	判定
モデル1	104.2	選択される
モデル2	108.6	棄却される
BIC差	4.4	中程度の差

結論：BIC₁ < BIC₂ なので、モデル1が選択される

計算の再確認

モデル1：

$$\\text{BIC}_1 = -2(-45.2) + 3\\log(100) = 90.4 + 3 \\times 4.605 = 90.4 + 13.815 = 104.215 ≈ 104.2$$

モデル2：

$$\\text{BIC}_2 = -2(-42.8) + 5\\log(100) = 85.6 + 5 \\times 4.605 = 85.6 + 23.025 = 108.625 ≈ 108.6$$

Step 5: BIC差の解釈

BIC差 = 108.6 - 104.2 = 4.4

BIC差の判定基準（Kass & Raftery基準）

BIC差（Δ）	証拠の強さ	解釈
0 ≤ Δ < 2	弱い	わずかな差
2 ≤ Δ < 6	中程度	明確な差
6 ≤ Δ < 10	強い	強い証拠
Δ ≥ 10	非常に強い	決定的な差

Δ = 4.4なので、モデル1への中程度の証拠があります。

Step 6: 適合度と複雑さのトレードオフ分析

要素	モデル1	モデル2	解釈
適合度項 $-2\\log L$	90.4	85.6	モデル2の方が適合良好
複雑さ項 $k\\log n$	13.8	23.0	モデル1の方が単純
総合評価 BIC	104.2	108.6	モデル1が最適

分析結果：

モデル2は適合度で優れる（対数尤度が高い）
しかし複雑さペナルティが大きすぎる
総合的にはモデル1の方がバランスが良い

Step 7: 他の情報量基準との比較

AIC（赤池情報量基準）での比較

参考として、AICでも計算してみます：

$$\\text{AIC} = -2\\log L + 2k$$

モデル1：AIC₁ = 90.4 + 2×3 = 96.4

モデル2：AIC₂ = 85.6 + 2×5 = 95.6

AICではモデル2が選択される（95.6 < 96.4）

基準	モデル1	モデル2	選択
BIC	104.2	108.6	モデル1
AIC	96.4	95.6	モデル2

Step 8: BICとAICの違いの理解

ペナルティ項の比較

基準	ペナルティ項	特徴	傾向
BIC	$k\\log n$	サンプルサイズ依存	より簡潔なモデルを選好
AIC	$2k$	固定ペナルティ	予測精度重視

サンプルサイズn=100の場合：

BIC ペナルティ：$\\log(100) ≈ 4.6$ per parameter
AIC ペナルティ：$2$ per parameter

BICの方が約2.3倍厳しいペナルティを課します。

Step 9: 選択指針

どちらの基準を使うべきか

BIC選択の場合：
- 解釈しやすいモデルが欲しい
- 真のモデルが候補にあると信じる
- サンプルサイズが大きい
AIC選択の場合：
- 予測精度を重視する
- 候補モデルはすべて近似と考える
- サンプルサイズが小さい

Step 10: ベイズファクターとの関係

BIC は近似ベイズファクターと解釈できます：

$$\\text{BF}_{12} ≈ \\exp\\left(\\frac{\\text{BIC}_2 - \\text{BIC}_1}{2}\\right)$$

$$= \\exp\\left(\\frac{108.6 - 104.2}{2}\\right) = \\exp(2.2) ≈ 9.0$$

これは、モデル1がモデル2より約9倍支持されることを意味します。

BIC使用時の注意点

モデル仮定：正規誤差、線形性などの仮定が重要
サンプルサイズ：小標本では過度にペナルティが大きい可能性
モデル数：多数のモデル比較では多重比較問題
計算精度：対数尤度の計算精度が結果に影響

結論

BIC基準では、モデル1（BIC = 104.2）がモデル2（BIC = 108.6）より選択されます。これは、モデル2の若干の適合度向上が、追加された2つのパラメータによる複雑さ増加を正当化できないためです。