この問題では、AICとBICの理論的基礎の本質的な違いについて理解を深めます。両者は表面的には似ていますが、導出の根拠と適用される理論的枠組みが根本的に異なります。
AICの理論的導出:カルバック・ライブラー情報量の観点
Step 1: カルバック・ライブラー情報量の定義
KL情報量の数学的定義:
$D_{KL}(g \| f) = \int g(x) \log \frac{g(x)}{f(x)} dx$
ここで:
- $g(x)$:真の確率密度関数
- $f(x)$:モデルの確率密度関数
KL情報量の直感的意味:
- 真の分布$g$とモデル分布$f$の「距離」の測度
- $D_{KL}(g \| f) ≥ 0$で、等号は$g = f$のときのみ成立
- 情報理論における「余分な符号化長」を表現
Step 2: 期待対数尤度との関係
KL情報量の変形:
$D_{KL}(g \| f) = \int g(x) \log g(x) dx - \int g(x) \log f(x) dx$
$= H(g) - E_g[\log f(x)]$
ここで:
- $H(g)$:真の分布のエントロピー(定数)
- $E_g[\log f(x)]$:期待対数尤度
最適化問題への変換:
$\min_{f} D_{KL}(g \| f) \equiv \max_{f} E_g[\log f(x)]$
KL情報量最小化は期待対数尤度最大化と等価です。
Step 3: 期待平均対数尤度の推定
期待平均対数尤度の定義:
$\ell(\theta) = E_g[\log f(x; \theta)]$
最大尤度推定量での評価:
$\hat{\ell}(\hat{\theta}) = \frac{1}{n} \sum_{i=1}^n \log f(x_i; \hat{\theta})$
しかし、$\hat{\ell}(\hat{\theta})$は$\ell(\hat{\theta})$の上方バイアス推定量です。
AICの考え
AICは$\hat{\ell}(\hat{\theta})$から適切なバイアス補正項を差し引くことで、期待平均対数尤度の漸近的不偏推定量を構成します。
AICの厳密な導出
Step 4: 大標本理論の適用
漸近展開の出発点:
$E_g[\log f(X; \hat{\theta})] = E_g[\log f(X; \theta_0)] + E_g[\nabla \log f(X; \theta_0)]^T (\hat{\theta} - \theta_0)$
$+ \frac{1}{2} E_g[(\hat{\theta} - \theta_0)^T \nabla^2 \log f(X; \theta_0) (\hat{\theta} - \theta_0)] + O_p(n^{-1})$
ここで、$\theta_0$はKL情報量を最小化する真のパラメータです。
フィッシャー情報行列の導入:
$I(\theta) = -E_g[\nabla^2 \log f(X; \theta)]$
最大尤度推定量の漸近正規性:
$\sqrt{n}(\hat{\theta} - \theta_0) \xrightarrow{d} N(0, I(\theta_0)^{-1})$
Step 5: バイアス補正項の導出
期待値の計算:
$E_g[\log f(X; \hat{\theta})] \approx E_g[\log f(X; \theta_0)] - \frac{k}{2n} + O(n^{-1})$
ここで、$k$はパラメータ数です。
経験的対数尤度の期待値:
$E_g\left[\frac{1}{n} \sum_{i=1}^n \log f(X_i; \hat{\theta})\right] \approx E_g[\log f(X; \theta_0)] + \frac{k}{n} + O(n^{-1})$
バイアス補正:
$E_g[\log f(X; \hat{\theta})] \approx \frac{1}{n} \sum_{i=1}^n \log f(X_i; \hat{\theta}) - \frac{k}{n}$
Step 6: AICの最終形
AICの定義:
$AIC = -2 \sum_{i=1}^n \log f(x_i; \hat{\theta}) + 2k$
期待平均対数尤度推定量として:
$\hat{\ell}_{AIC} = \frac{1}{n} \sum_{i=1}^n \log f(x_i; \hat{\theta}) - \frac{k}{n}$
これが期待平均対数尤度の漸近的不偏推定量です。
BICの理論的基礎:ベイズ理論の観点
Step 7: BICの導出原理
事後確率の最大化:
$P(M_j | \text{data}) = \frac{P(\text{data} | M_j) P(M_j)}{P(\text{data})}$
ここで、$M_j$は$j$番目のモデルです。
周辺尤度の計算:
$P(\text{data} | M_j) = \int P(\text{data} | \theta_j, M_j) P(\theta_j | M_j) d\theta_j$
ラプラス近似の適用:
$\log P(\text{data} | M_j) \approx \log P(\text{data} | \hat{\theta}_j, M_j) - \frac{k_j}{2} \log n + O(1)$
Step 8: BICの最終形
BICの定義:
$BIC = -2 \log P(\text{data} | \hat{\theta}_j, M_j) + k_j \log n$
理論的背景:
- ベイズ理論:事後確率の最大化
- ラプラス近似:積分の近似計算
- 一様事前分布:パラメータの事前分布の仮定
AICとBICの根本的違い
Step 9: 理論的枠組みの比較
| 観点 | AIC | BIC |
|---|
| 理論的基礎 | 情報理論・KL情報量 | ベイズ理論・事後確率 |
| 最適化目標 | 期待対数尤度最大化 | 事後確率最大化 |
| 使用理論 | 大標本理論・漸近展開 | ラプラス近似・ベイズ積分 |
| モデル想定 | 真のモデルは候補外 | 真のモデルは候補内 |
| ペナルティ | $2k$(定数) | $k \log n$(サンプル依存) |