この問題では、AICとBICの理論的基礎の本質的な違いについて理解を深めます。両者は表面的には似ていますが、導出の根拠と適用される理論的枠組みが根本的に異なります。
AICの理論的導出:カルバック・ライブラー情報量の観点
Step 1: カルバック・ライブラー情報量の定義
KL情報量の数学的定義:
$$D_{KL}(g \\| f) = \\int g(x) \\log \\frac{g(x)}{f(x)} dx$$
ここで:
- $g(x)$:真の確率密度関数
- $f(x)$:モデルの確率密度関数
KL情報量の直感的意味:
- 真の分布$g$とモデル分布$f$の「距離」の測度
- $D_{KL}(g \\| f) ≥ 0$で、等号は$g = f$のときのみ成立
- 情報理論における「余分な符号化長」を表現
Step 2: 期待対数尤度との関係
KL情報量の変形:
$$D_{KL}(g \\| f) = \\int g(x) \\log g(x) dx - \\int g(x) \\log f(x) dx$$
$$= H(g) - E_g[\\log f(x)]$$
ここで:
- $H(g)$:真の分布のエントロピー(定数)
- $E_g[\\log f(x)]$:期待対数尤度
最適化問題への変換:
$$\\min_{f} D_{KL}(g \\| f) \\equiv \\max_{f} E_g[\\log f(x)]$$
KL情報量最小化は期待対数尤度最大化と等価です。
Step 3: 期待平均対数尤度の推定
期待平均対数尤度の定義:
$$\\ell(\\theta) = E_g[\\log f(x; \\theta)]$$
最大尤度推定量での評価:
$$\\hat{\\ell}(\\hat{\\theta}) = \\frac{1}{n} \\sum_{i=1}^n \\log f(x_i; \\hat{\\theta})$$
しかし、$\\hat{\\ell}(\\hat{\\theta})$は$\\ell(\\hat{\\theta})$の上方バイアス推定量です。
AICの考え
AICは$\\hat{\\ell}(\\hat{\\theta})$から適切なバイアス補正項を差し引くことで、期待平均対数尤度の漸近的不偏推定量を構成します。
AICの厳密な導出
Step 4: 大標本理論の適用
漸近展開の出発点:
$$E_g[\\log f(X; \\hat{\\theta})] = E_g[\\log f(X; \\theta_0)] + E_g[\\nabla \\log f(X; \\theta_0)]^T (\\hat{\\theta} - \\theta_0)$$
$$+ \\frac{1}{2} E_g[(\\hat{\\theta} - \\theta_0)^T \\nabla^2 \\log f(X; \\theta_0) (\\hat{\\theta} - \\theta_0)] + O_p(n^{-1})$$
ここで、$\\theta_0$はKL情報量を最小化する真のパラメータです。
フィッシャー情報行列の導入:
$$I(\\theta) = -E_g[\\nabla^2 \\log f(X; \\theta)]$$
最大尤度推定量の漸近正規性:
$$\\sqrt{n}(\\hat{\\theta} - \\theta_0) \\xrightarrow{d} N(0, I(\\theta_0)^{-1})$$
Step 5: バイアス補正項の導出
期待値の計算:
$$E_g[\\log f(X; \\hat{\\theta})] \\approx E_g[\\log f(X; \\theta_0)] - \\frac{k}{2n} + O(n^{-1})$$
ここで、$k$はパラメータ数です。
経験的対数尤度の期待値:
$$E_g\\left[\\frac{1}{n} \\sum_{i=1}^n \\log f(X_i; \\hat{\\theta})\\right] \\approx E_g[\\log f(X; \\theta_0)] + \\frac{k}{n} + O(n^{-1})$$
バイアス補正:
$$E_g[\\log f(X; \\hat{\\theta})] \\approx \\frac{1}{n} \\sum_{i=1}^n \\log f(X_i; \\hat{\\theta}) - \\frac{k}{n}$$
Step 6: AICの最終形
AICの定義:
$$AIC = -2 \\sum_{i=1}^n \\log f(x_i; \\hat{\\theta}) + 2k$$
期待平均対数尤度推定量として:
$$\\hat{\\ell}_{AIC} = \\frac{1}{n} \\sum_{i=1}^n \\log f(x_i; \\hat{\\theta}) - \\frac{k}{n}$$
これが期待平均対数尤度の漸近的不偏推定量です。
BICの理論的基礎:ベイズ理論の観点
Step 7: BICの導出原理
事後確率の最大化:
$$P(M_j | \\text{data}) = \\frac{P(\\text{data} | M_j) P(M_j)}{P(\\text{data})}$$
ここで、$M_j$は$j$番目のモデルです。
周辺尤度の計算:
$$P(\\text{data} | M_j) = \\int P(\\text{data} | \\theta_j, M_j) P(\\theta_j | M_j) d\\theta_j$$
ラプラス近似の適用:
$$\\log P(\\text{data} | M_j) \\approx \\log P(\\text{data} | \\hat{\\theta}_j, M_j) - \\frac{k_j}{2} \\log n + O(1)$$
Step 8: BICの最終形
BICの定義:
$$BIC = -2 \\log P(\\text{data} | \\hat{\\theta}_j, M_j) + k_j \\log n$$
理論的背景:
- ベイズ理論:事後確率の最大化
- ラプラス近似:積分の近似計算
- 一様事前分布:パラメータの事前分布の仮定
AICとBICの根本的違い
Step 9: 理論的枠組みの比較
観点 | AIC | BIC |
---|
理論的基礎 | 情報理論・KL情報量 | ベイズ理論・事後確率 |
最適化目標 | 期待対数尤度最大化 | 事後確率最大化 |
使用理論 | 大標本理論・漸近展開 | ラプラス近似・ベイズ積分 |
モデル想定 | 真のモデルは候補外 | 真のモデルは候補内 |
ペナルティ | $2k$(定数) | $k \\log n$(サンプル依存) |