モデル選択・評価

AIC、BIC、交差検証、ROC曲線、混合行列など、統計モデルの選択と評価に関する手法

AICとBICの理論的基礎の違い レベル1

AICとBICはどちらもモデル選択に用いられる情報量規準だが、その理論的基礎は大きく異なる。AICの導出とBICの導出における根本的な違いについて、以下の選択肢から最も適切なものを選べ。

解説
解答と解説を表示

この問題では、AICとBICの理論的基礎の本質的な違いについて理解を深めます。両者は表面的には似ていますが、導出の根拠と適用される理論的枠組みが根本的に異なります。

AICの理論的導出:カルバック・ライブラー情報量の観点

Step 1: カルバック・ライブラー情報量の定義

KL情報量の数学的定義:

$$D_{KL}(g \\| f) = \\int g(x) \\log \\frac{g(x)}{f(x)} dx$$

ここで:

  • $g(x)$:真の確率密度関数
  • $f(x)$:モデルの確率密度関数

KL情報量の直感的意味:

  • 真の分布$g$とモデル分布$f$の「距離」の測度
  • $D_{KL}(g \\| f) ≥ 0$で、等号は$g = f$のときのみ成立
  • 情報理論における「余分な符号化長」を表現

Step 2: 期待対数尤度との関係

KL情報量の変形:

$$D_{KL}(g \\| f) = \\int g(x) \\log g(x) dx - \\int g(x) \\log f(x) dx$$
$$= H(g) - E_g[\\log f(x)]$$

ここで:

  • $H(g)$:真の分布のエントロピー(定数)
  • $E_g[\\log f(x)]$:期待対数尤度

最適化問題への変換:

$$\\min_{f} D_{KL}(g \\| f) \\equiv \\max_{f} E_g[\\log f(x)]$$

KL情報量最小化は期待対数尤度最大化と等価です。

Step 3: 期待平均対数尤度の推定

期待平均対数尤度の定義:

$$\\ell(\\theta) = E_g[\\log f(x; \\theta)]$$

最大尤度推定量での評価:

$$\\hat{\\ell}(\\hat{\\theta}) = \\frac{1}{n} \\sum_{i=1}^n \\log f(x_i; \\hat{\\theta})$$

しかし、$\\hat{\\ell}(\\hat{\\theta})$は$\\ell(\\hat{\\theta})$の上方バイアス推定量です。

AICの考え

AICは$\\hat{\\ell}(\\hat{\\theta})$から適切なバイアス補正項を差し引くことで、期待平均対数尤度の漸近的不偏推定量を構成します。

AICの厳密な導出

Step 4: 大標本理論の適用

漸近展開の出発点:

$$E_g[\\log f(X; \\hat{\\theta})] = E_g[\\log f(X; \\theta_0)] + E_g[\\nabla \\log f(X; \\theta_0)]^T (\\hat{\\theta} - \\theta_0)$$
$$+ \\frac{1}{2} E_g[(\\hat{\\theta} - \\theta_0)^T \\nabla^2 \\log f(X; \\theta_0) (\\hat{\\theta} - \\theta_0)] + O_p(n^{-1})$$

ここで、$\\theta_0$はKL情報量を最小化する真のパラメータです。

フィッシャー情報行列の導入:

$$I(\\theta) = -E_g[\\nabla^2 \\log f(X; \\theta)]$$

最大尤度推定量の漸近正規性:

$$\\sqrt{n}(\\hat{\\theta} - \\theta_0) \\xrightarrow{d} N(0, I(\\theta_0)^{-1})$$

Step 5: バイアス補正項の導出

期待値の計算:

$$E_g[\\log f(X; \\hat{\\theta})] \\approx E_g[\\log f(X; \\theta_0)] - \\frac{k}{2n} + O(n^{-1})$$

ここで、$k$はパラメータ数です。

経験的対数尤度の期待値:

$$E_g\\left[\\frac{1}{n} \\sum_{i=1}^n \\log f(X_i; \\hat{\\theta})\\right] \\approx E_g[\\log f(X; \\theta_0)] + \\frac{k}{n} + O(n^{-1})$$

バイアス補正:

$$E_g[\\log f(X; \\hat{\\theta})] \\approx \\frac{1}{n} \\sum_{i=1}^n \\log f(X_i; \\hat{\\theta}) - \\frac{k}{n}$$

Step 6: AICの最終形

AICの定義:

$$AIC = -2 \\sum_{i=1}^n \\log f(x_i; \\hat{\\theta}) + 2k$$

期待平均対数尤度推定量として:

$$\\hat{\\ell}_{AIC} = \\frac{1}{n} \\sum_{i=1}^n \\log f(x_i; \\hat{\\theta}) - \\frac{k}{n}$$

これが期待平均対数尤度の漸近的不偏推定量です。

BICの理論的基礎:ベイズ理論の観点

Step 7: BICの導出原理

事後確率の最大化:

$$P(M_j | \\text{data}) = \\frac{P(\\text{data} | M_j) P(M_j)}{P(\\text{data})}$$

ここで、$M_j$は$j$番目のモデルです。

周辺尤度の計算:

$$P(\\text{data} | M_j) = \\int P(\\text{data} | \\theta_j, M_j) P(\\theta_j | M_j) d\\theta_j$$

ラプラス近似の適用:

$$\\log P(\\text{data} | M_j) \\approx \\log P(\\text{data} | \\hat{\\theta}_j, M_j) - \\frac{k_j}{2} \\log n + O(1)$$

Step 8: BICの最終形

BICの定義:

$$BIC = -2 \\log P(\\text{data} | \\hat{\\theta}_j, M_j) + k_j \\log n$$

理論的背景:

  • ベイズ理論:事後確率の最大化
  • ラプラス近似:積分の近似計算
  • 一様事前分布:パラメータの事前分布の仮定

AICとBICの根本的違い

Step 9: 理論的枠組みの比較

観点AICBIC
理論的基礎情報理論・KL情報量ベイズ理論・事後確率
最適化目標期待対数尤度最大化事後確率最大化
使用理論大標本理論・漸近展開ラプラス近似・ベイズ積分
モデル想定真のモデルは候補外真のモデルは候補内
ペナルティ$2k$(定数)$k \\log n$(サンプル依存)
問題 1/10
カテゴリ一覧に戻る