一般化線形モデル(GLM):指数型分布族の統一的枠組み
GLMの基本構成要素
Step 1: GLMの3つの構成要素
GLMの構成要素
- 確率分布:指数型分布族に属する分布
- 線形予測子:$\eta = \mathbf{x}^T\boldsymbol{\beta}$
- リンク関数:$g(\mu) = \eta$
Step 2: 指数型分布族の一般形
指数型分布族は以下の形で表現される:
$f(y|\theta, \phi) = \exp\left(\frac{y\theta - b(\theta)}{a(\phi)} + c(y, \phi)\right)$
ここで:
- $\theta$:自然パラメータ
- $\phi$:分散パラメータ
- $b(\theta)$:キュムラント生成関数
Step 3: ポアソン分布の指数型表現
ポアソン分布$\text{Poisson}(\mu)$:
$P(Y = y) = \frac{\mu^y e^{-\mu}}{y!}$
指数型分布族の形に変換:
$P(Y = y) = \exp(y\log\mu - \mu - \log y!)$
ここで:
- $\theta = \log\mu$(自然パラメータ)
- $b(\theta) = e^\theta = \mu$
- $a(\phi) = 1$
リンク関数の役割
| 分布 | 平均の範囲 | 正準リンク関数 | 逆リンク関数 |
|---|
| 正規分布 | $(-\infty, \infty)$ | $g(\mu) = \mu$ | $\mu = \eta$ |
| ポアソン分布 | $(0, \infty)$ | $g(\mu) = \log\mu$ | $\mu = e^\eta$ |
| 二項分布 | $(0, 1)$ | $g(\mu) = \log\frac{\mu}{1-\mu}$ | $\mu = \frac{e^\eta}{1+e^\eta}$ |
Step 4: ポアソン回帰の数学的導出
リンク関数の定義:
$g(\mu) = \eta$
ポアソン回帰では$g(\mu) = \log\mu$なので:
$\log\mu = \eta$
両辺の指数を取ると:
$\mu = \exp(\eta) = \exp(\beta_0 + \beta_1 x)$
ここで、$\beta_0$は切片、$\beta_1$は回帰係数です。
Step 5: 正準リンク関数の利点
- 自然パラメータとの一致:$\theta = \eta$
- 計算の簡便性:尤度関数が簡潔になる
- 統計的性質:推定量の漸近的性質が良好
Step 6: 最尤推定
対数尤度関数:
$\ell(\boldsymbol{\beta}) = \sum_{i=1}^n [y_i\eta_i - \exp(\eta_i) - \log y_i!]$
スコア関数:
$\frac{\partial \ell}{\partial \beta_j} = \sum_{i=1}^n (y_i - \mu_i) x_{ij}$
GLMの応用例
- ポアソン回帰:カウントデータ(事故件数、顧客数等)
- ロジスティック回帰:二値データ(成功/失敗、購入/非購入等)
- ガンマ回帰:正の連続データ(待ち時間、価格等)