ARIMAモデル識別:Box-Jenkins法の体系的アプローチ
モデル識別の重要性
ARIMAモデルの識別は時系列解析の成功を左右する最もステップです。適切な識別により、データの本質的な構造を捉え、信頼性の高い予測と推論を可能にします。Box-Jenkins法(1970)により体系化されたこの手法は、現在でも時系列分析の基礎となっています。
Box-Jenkins法の3段階プロセス
Step 1: 識別(Identification)段階
1.1 定常性の確認と変換
定常化の体系的手順
- 視覚的診断
- 時系列プロット:トレンド、季節性、分散変化の確認
- 散布図:ラグプロットによる線形関係の検証
- 統計的検定
- ADF検定:$H_0$: 単位根存在(非定常)
- KPSS検定:$H_0$: 定常性
- Phillips-Perron検定:系列相関に頑健
- 変換の適用
- 差分:$\nabla^d X_t = (1-B)^d X_t$
- 季節差分:$\nabla_s X_t = (1-B^s) X_t$
- Box-Cox変換:分散安定化
1.2 ACF・PACFによる次数決定
定常化されたデータに対して、自己相関関数(ACF)と偏自己相関関数(PACF)のパターンを分析します:
| モデル | ACFの特徴 | PACFの特徴 | 識別方法 |
|---|
| AR(p) | 指数的減衰または振動減衰 | ラグ$p$で切断 | PACFの切断点から$p$を決定 |
| MA(q) | ラグ$q$で切断 | 指数的減衰または振動減衰 | ACFの切断点から$q$を決定 |
| ARMA(p,q) | ラグ$q$以降で指数的減衰 | ラグ$p$以降で指数的減衰 | 両方の減衰パターンから推定 |
ACF・PACFの数学的定義と計算
Step 2: 相関構造の詳細分析
自己相関関数(ACF):
$\rho(h) = \frac{\gamma(h)}{\gamma(0)} = \frac{\text{Cov}(X_t, X_{t+h})}{\text{Var}(X_t)}$
標本ACF:
$\hat{\rho}(h) = \frac{\hat{\gamma}(h)}{\hat{\gamma}(0)} = \frac{\frac{1}{n}\sum_{t=1}^{n-h}(X_t - \bar{X})(X_{t+h} - \bar{X})}{\frac{1}{n}\sum_{t=1}^{n}(X_t - \bar{X})^2}$
偏自己相関関数(PACF):
ラグ$h$での偏自己相関$\phi_{hh}$は、中間のラグ$1, 2, \ldots, h-1$の影響を除去した$X_t$と$X_{t+h}$の相関:
$\phi_{hh} = \text{Corr}(X_t - \hat{X}_t, X_{t+h} - \hat{X}_{t+h})$
ここで、$\hat{X}_t$、$\hat{X}_{t+h}$はそれぞれ$X_{t+1}, \ldots, X_{t+h-1}$による線形予測値
Yule-Walker方程式による計算
AR(h)モデルのパラメータとして偏自己相関を計算:
$\begin{bmatrix}1 & \rho(1) & \rho(2) & \cdots & \rho(h-1) \\\rho(1) & 1 & \rho(1) & \cdots & \rho(h-2) \\\vdots & \vdots & \vdots & \ddots & \vdots \\\rho(h-1) & \rho(h-2) & \rho(h-3) & \cdots & 1\end{bmatrix} \begin{bmatrix}\phi_{h1} \\\phi_{h2} \\\vdots \\\phi_{hh}\end{bmatrix} = \begin{bmatrix}\rho(1) \\\rho(2) \\\vdots \\\rho(h)\end{bmatrix}$
情報量規準によるモデル選択
Step 3: 定量的モデル比較
ACF・PACFによる初期識別後、情報量規準により最終的なモデルを選択します:
主要な情報量規準:
$\begin{align}\text{AIC} &= -2\log L(\hat{\theta}) + 2k \\\text{BIC} &= -2\log L(\hat{\theta}) + k\log n \\\text{HQIC} &= -2\log L(\hat{\theta}) + 2k\log\log n\end{align}$
ここで、$L(\hat{\theta})$は最大尤度、$k$はパラメータ数、$n$は観測数
| 規準 | 特徴 | 適用場面 | ペナルティ |
|---|
| AIC | 予測重視 | 予測精度優先 | 軽い |
| BIC | 簡潔性重視 | 真のモデル選択 | 重い |
| HQIC | 中間的 | バランス重視 | 中程度 |
推定と診断の統合プロセス
Step 4: 推定(Estimation)段階
最尤推定法:
ARIMA(p,d,q)モデルのパラメータ$\theta = (\phi_1, \ldots, \phi_p, \theta_1, \ldots, \theta_q, \sigma^2)$を推定:
$\hat{\theta} = \arg\max_{\theta} L(\theta) = \arg\max_{\theta} \prod_{t=1}^{n} f(x_t | x_{t-1}, \ldots, x_1; \theta)$
条件付き最小二乗法:
$\hat{\theta} = \arg\min_{\theta} \sum_{t=p+1}^{n} [x_t - \phi_1 x_{t-1} - \cdots - \phi_p x_{t-p} - \theta_1 \epsilon_{t-1} - \cdots - \theta_q \epsilon_{t-q}]^2$
Step 5: 診断(Diagnostic)段階
包括的残差診断
- 系列無相関性検定
- Ljung-Box検定:$Q_{LB} = n(n+2)\sum_{h=1}^H \frac{\hat{\rho}_h^2}{n-h} \sim \chi^2(H-p-q)$
- Box-Pierce検定:$Q_{BP} = n\sum_{h=1}^H \hat{\rho}_h^2 \sim \chi^2(H-p-q)$
- 正規性検定
- Jarque-Bera検定:$JB = \frac{n}{6}[S^2 + \frac{(K-3)^2}{4}] \sim \chi^2(2)$
- Shapiro-Wilk検定
- 異分散性検定
- 構造安定性検定
- CUSUM検定
- recursive residuals
識別戦略
Step 6: 現代的アプローチの統合
1. 自動選択アルゴリズム
Hyndman-Khandakar アルゴリズム(auto.arima):
- 単位根検定による差分次数$d$の決定
- 情報量規準による$(p,q)$の格子探索
- 段階的選択による効率的探索
- 季節性の自動検出と対応
2. 交差検証による予測性能評価
$\text{MAPE} = \frac{1}{h} \sum_{i=1}^{h} \left| \frac{y_{n+i} - \hat{y}_{n+i|n}}{y_{n+i}} \right| \times 100\%$
3. アンサンブル手法
- 複数のARIMAモデルの重み付き平均
- ベイジアンモデル平均(BMA)
- 機械学習手法との組み合わせ
季節性とSARIMAへの拡張
Step 7: 季節時系列の特別な考慮
SARIMA(p,d,q)(P,D,Q)s モデル:
$\Phi(B^s)\phi(B)(1-B)^d(1-B^s)^D X_t = \Theta(B^s)\theta(B)\epsilon_t$
季節性の識別指標:
- 季節ラグでのACF・PACFの有意性
- 季節差分後の定常性
- スペクトル解析による周期性検出
季節性判定の手順
- 視覚的確認:季節プロット、月別ボックスプロット
- 統計的検定:Kruskal-Wallis検定、QS検定
- 自動検出:X-13ARIMA-SEATS、TRAMO-SEATS
- 機械学習:STL分解、Prophet
他の選択肢の詳細検討
Step 8: 誤った識別手法の問題点
選択肢B: AICのみを用いて最適なモデルを選択する
- ❌ 単一規準の限界:過適合のリスク
- ❌ ACF・PACFの無視:構造的理解の欠如
- ❌ 診断の軽視:仮定違反の見落とし
- ✓ 改善案:複数規準の併用、段階的選択
選択肢C: データの長さから自動的に次数が決まる
- ❌ データ生成過程の無視:構造に基づかない選択
- ❌ 統計的根拠の欠如:恣意的な決定
- ❌ 一般化の困難:異なるデータへの適用不可
- ✓ 正しいアプローチ:データの特性に基づく識別
選択肢D: 季節性があれば必ずSARIMAモデルを使用する
- ❌ 過度の一般化:季節性の種類を無視
- ❌ 代替手法の軽視:状態空間モデル、STL等
- ❌ 複雑性の無視:パラメータ数の増大
- ✓ 適切な判断:季節性の性質に応じた選択