AICの有限修正（c-AIC）について - モデル選択・評価問題16

AICの有限修正（c-AIC）についてレベル1

小標本サイズにおけるAICの偏りを補正する修正AIC（c-AIC）について、正しい記述はどれか。

解説

解答と解説を表示

この問題では、小標本サイズにおけるAICの偏りを補正する修正AIC（c-AIC: corrected AIC）について理解を深めます。c-AICは実際の統計解析において、特に小さなデータセットでの適切なモデル選択を可能にする手法です。[[memory:1942104]]

AICの小標本問題

Step 1: 標準AICの理論的基礎と限界

標準AICの定義：

$$\\text{AIC} = -2\\ln L + 2k$$

この式は漸近理論に基づいており、サンプルサイズ$n$が十分に大きい場合に成立します。

小標本における問題：

推定バイアス：最大尤度推定量の偏りが十分に小さくならない
ペナルティ不足：パラメータ数に対するペナルティが過小評価される
選択バイアス：過度に複雑なモデルが選択されやすい

偏りの発生メカニズム：

$$E[\\text{AIC}] \\neq E[\\text{True Risk}] \\quad \\text{when } n \\text{ is small}$$

理論的には、AICは真のリスクの不偏推定量となるはずですが、小標本では系統的な偏りが生じます。

Step 2: 修正AIC（c-AIC）の導出

Hurvich & Tsai (1989)による修正：

$$\\text{c-AIC} = \\text{AIC} + \\frac{2k(k+1)}{n-k-1}$$

この修正項は、小標本におけるAICの偏りを補正するために導入されました。

修正項の詳細解析：

$$\\text{Correction Term} = \\frac{2k(k+1)}{n-k-1}$$

この項の特徴：

$k$に対する2次的依存：パラメータ数が多いほど大きな補正
$n$に対する逆比例：サンプルサイズが小さいほど大きな補正
正の値：常にAICを増加させる（より保守的な選択）

c-AICの数学的背景

理論的根拠：

c-AICは、条件付き最大尤度に基づく正確な期待値計算から導出されます：

$$E[\\text{c-AIC}] = E[\\text{True Risk}] + O(1/n^2)$$

これにより、$O(1/n)$の精度でリスクの不偏推定が可能になります。

Step 3: 修正項の挙動分析

サンプルサイズ効果：

パラメータ数$k=5$の場合の修正項の変化：

$n$	$\\frac{2k(k+1)}{n-k-1}$	AICとの差	影響度
20	4.29	大きい	モデル選択に大きく影響
50	1.36	中程度	選択に影響する可能性
100	0.64	小さい	軽微な影響
500	0.12	無視できる	ほぼ影響なし

パラメータ数効果：

$n=30$の場合の修正項の変化：

$k=2$: 修正項 = 0.52
$k=5$: 修正項 = 2.50
$k=10$: 修正項 = 11.58
$k=15$: 修正項 = 34.3

パラメータ数が多いほど、修正項は急激に増加します。

実際の計算例と比較

Step 4: 具体的な計算例

設定：

サンプルサイズ: $n = 25$
パラメータ数: $k = 4$
最大対数尤度: $\\ln L = -50$

標準AICの計算：

$$\\text{AIC} = -2 \\times (-50) + 2 \\times 4 = 100 + 8 = 108$$

修正AIC（c-AIC）の計算：

$$\\text{c-AIC} = 108 + \\frac{2 \\times 4 \\times (4+1)}{25-4-1} = 108 + \\frac{40}{20} = 108 + 2 = 110$$

解釈：

c-AICは標準AICより2.0だけ大きい
この差は小標本補正の効果を示す
より保守的なモデル選択を促す

Step 5: 複数モデルでの比較例

3つのモデルの比較：

モデル	$k$	$\\ln L$	AIC	c-AIC	順位(AIC)	順位(c-AIC)
A	2	-52	108	108.5	2	1
B	4	-50	108	110	1	2
C	6	-48	108	112.7	1	3

重要な発見：

AICでは3つのモデルがほぼ同等
c-AICでは明確に単純なモデル（A）が最良
小標本補正により、より解釈しやすいモデルが選択される

適用指針

Step 6: 使い分けの判断基準

c-AICを使用すべき場面：

小標本データ：一般的に $n/k < 40$ の場合
高次元問題：パラメータ数が多い場合
回帰分析：線形・非線形回帰での変数選択
時系列分析：ARIMAモデルの次数選択

標準AICで十分な場面：

大標本データ：$n/k > 40$ の場合
低次元問題：パラメータ数が相対的に少ない場合
計算効率重視：高速な処理が必要な場合

Step 7: 実装上の注意点

数値的安定性：

$$\\text{c-AIC} = \\text{AIC} + \\frac{2k(k+1)}{n-k-1}$$

条件： $n > k + 1$ が必要です。この条件が満たされない場合、c-AICは定義されません。

境界条件での処理：

$n = k + 1$：修正項が無限大になる
$n < k + 1$：モデルが過指定状態
対処法：モデルの簡素化または追加データの収集

計算上の工夫：

数値安定性：修正項の事前計算
効率化：複数モデル比較での共通項の活用
検証：修正項の妥当性チェック