一般化線形モデル(GLM)の基本概念
一般化線形モデルは、線形回帰を拡張したモデルで、目的変数が指数族分布に従う場合に適用されます。
GLMの3つの構成要素
- 確率分布:指数族分布(正規、ポアソン、二項分布など)
- 線形予測子:$\eta = \mathbf{x}^T\boldsymbol{\beta}$
- リンク関数:$g(\mu) = \eta$ により期待値と線形予測子を結ぶ
Step 1: ポアソン分布のGLM
ポアソン分布を仮定したGLMでは:
- 確率分布:$Y \sim \text{Poisson}(\mu)$
- 期待値:$E[Y] = \mu$
- 分散:$\text{Var}(Y) = \mu$
- 自然リンク関数:$g(\mu) = \log(\mu)$
Step 2: リンク関数と逆リンク関数
対数リンク関数の場合:
$g(\mu) = \log(\mu) = \eta$
逆リンク関数(応答関数):
$\mu = g^{-1}(\eta) = \exp(\eta)$
これにより、線形予測子から期待値を計算できます。
Step 3: 与えられた線形予測子の処理
問題の設定:
- $\eta_1 = 1.0$
- $\eta_2 = 1.5$
逆リンク関数を適用:
$\mu_1 = \exp(\eta_1) = \exp(1.0) = e^1 \approx 2.718$
$\mu_2 = \exp(\eta_2) = \exp(1.5) = e^{1.5} \approx 4.482$
Step 4: 期待値の比の計算
$\frac{\mu_2}{\mu_1} = \frac{\exp(1.5)}{\exp(1.0)} = \exp(1.5 - 1.0) = \exp(0.5)$
$= e^{0.5} \approx 1.649$
約1.65となります。
対数リンク関数の性質
対数リンク関数を使用する場合の性質:
- 乗法的効果:線形予測子の差は期待値の比の対数
- 指数変換:$\mu = \exp(\eta)$ により常に正の値
- 比例性:$\eta$ の単位増加で $\mu$ は $e$ 倍に増加
Step 5: 結果の検証
計算の確認:
$e^{0.5} = \sqrt{e} \approx \sqrt{2.718} \approx 1.649$
選択肢の中では「約1.65」が最も近い値です。
Step 6: GLMにおける推定と診断
GLMの推定手法
- 最尤推定:反復重み付き最小二乗法(IRLS)
- 偏差度:$D = 2[\ell(\hat{\mu}_{sat}) - \ell(\hat{\mu})]$
- 情報量基準:AIC, BIC による モデル選択
- 残差分析:Pearson残差、deviance残差
Step 7: ポアソン回帰の応用例
ポアソン回帰は以下の場面で使用されます:
- カウントデータ:事故件数、販売個数など
- 頻度データ:単位時間・面積あたりの発生回数
- 稀な事象:疾病の発症率、故障率など
Step 8: 過分散への対応
ポアソン分布では平均と分散が等しいと仮定しますが、実際のデータでは過分散(分散 > 平均)が起こることがあります。この場合:
- 準ポアソン回帰:分散を $\phi \mu$ に調整
- 負の二項回帰:ガンマ混合ポアソン分布
- ゼロ過剰モデル:ゼロが多い場合の拡張
GLMの利点
- 柔軟性:様々な分布に対応
- 解釈性:線形予測子による説明変数の効果
- 理論的基盤:最尤推定の性質を利用
- 診断手法:豊富な適合度検定と残差分析