極限・漸近理論

中心極限定理、デルタ法、スルツキーの定理など統計検定準1級レベルの漸近理論を学習します。

タイトルをここに レベル1

問題はここに

解説
解答と解説を表示

スコア検定(Score Test / Lagrange Multiplier Test)の理論と応用

スコア検定は三大漸近検定手法の一つで、制約下でのみパラメータを推定すれば実行できる効率的な検定手法です。特に複雑なモデルで制約なし推定が困難な場合に威力を発揮します。

スコア検定の特徴

計算効率:制約下でのみ推定すれば実行可能で計算負荷が軽い。理論的優美性:ラグランジュ乗数法との密接な関係があります。

Step 1: スコア検定の基本理論

帰無仮説 H₀: θ = θ₀ に対するスコア統計量:

$$S = \frac{[U(\theta_0)]^2}{I(\theta_0)}$$

ここで:

  • U(θ₀):θ₀でのスコア関数(対数尤度の一次微分)
  • I(θ₀):θ₀でのフィッシャー情報量

帰無仮説下で S ~ χ²(r) (r は制約の数)

ポアソン分布の基本性質

ポアソン分布 Po(λ) の確率質量関数:

$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$$
統計量推定量
期待値λE[X] = x̄
分散λVar(X) = x̄
MLEλ̂ = x̄標本平均

Step 2: ポアソン分布での対数尤度関数

n個の独立標本 x₁, x₂, ..., xₙ に対する対数尤度関数:

$$\ell(\lambda) = \sum_{i=1}^n [x_i \log \lambda - \lambda - \log(x_i!)]$$
$$= \log \lambda \sum_{i=1}^n x_i - n\lambda - \sum_{i=1}^n \log(x_i!)$$
$$= n\bar{x} \log \lambda - n\lambda - \sum_{i=1}^n \log(x_i!)$$

本問では:

  • n = 200
  • x̄ = 3.2
  • Σxᵢ = nx̄ = 640

Step 3: スコア関数の計算

対数尤度の一次微分(スコア関数):

$$U(\lambda) = \frac{d\ell(\lambda)}{d\lambda} = \frac{n\bar{x}}{\lambda} - n = \frac{n(\bar{x} - \lambda)}{\lambda}$$

H₀: λ = 3 下でのスコア関数:

$$U(3) = \frac{200 \times (3.2 - 3)}{3} = \frac{200 \times 0.2}{3} = \frac{40}{3} \approx 13.33$$

Step 4: フィッシャー情報量の計算

対数尤度の二次微分:

$$\frac{d^2\ell(\lambda)}{d\lambda^2} = -\frac{n\bar{x}}{\lambda^2}$$

フィッシャー情報量:

$$I(\lambda) = -E\left[\frac{d^2\ell(\lambda)}{d\lambda^2}\right] = E\left[\frac{n\bar{x}}{\lambda^2}\right] = \frac{n \cdot \lambda}{\lambda^2} = \frac{n}{\lambda}$$

H₀: λ = 3 下でのフィッシャー情報量:

$$I(3) = \frac{200}{3} \approx 66.67$$

Step 5: スコア統計量の計算

$$S = \frac{[U(3)]^2}{I(3)} = \frac{(13.33)^2}{66.67} = \frac{177.78}{66.67} \approx 2.67$$

より正確な計算:

$$U(3) = \frac{40}{3}, \quad I(3) = \frac{200}{3}$$
$$S = \frac{(40/3)^2}{200/3} = \frac{1600/9}{200/3} = \frac{1600}{9} \times \frac{3}{200} = \frac{1600 \times 3}{9 \times 200} = \frac{4800}{1800} = \frac{8}{3} \approx 2.67$$

小数第2位まで:2.67

別解法での検証

スコア統計量の標準化バージョン:

$$Z = \frac{U(\theta_0)}{\sqrt{I(\theta_0)}} = \frac{40/3}{\sqrt{200/3}} = \frac{40/3}{\sqrt{66.67}} \approx \frac{13.33}{8.165} \approx 1.633$$

S = Z² ≈ (1.633)² ≈ 2.67 で一致します。

スコア検定の理論的背景

Step 6: ラグランジュ乗数法との関係

制約付き最適化問題:

$$\max_{\theta} \ell(\theta) \quad \text{subject to} \quad g(\theta) = 0$$

ラグランジュ関数:

$$L(\theta, \lambda) = \ell(\theta) - \lambda g(\theta)$$

一次条件:

$$\frac{\partial L}{\partial \theta} = U(\theta) - \lambda \frac{\partial g(\theta)}{\partial \theta} = 0$$

ラグランジュ乗数 λ がスコア統計量と密接に関連します。

三大検定手法の統一理論

検定手法基本原理必要な推定計算複雑度
Wald検定推定値と仮説値の距離制約なし推定
尤度比検定尤度の比較両方の推定最高
スコア検定勾配の大きさ制約下推定のみ

スコア検定は最も計算効率が良い手法です。

検定の実行と判定

Step 7: 臨界値との比較

S = 2.67 と χ²(1) 分布の臨界値を比較:

有意水準臨界値判定p値
10%2.71採択≈ 0.102
5%3.84採択≈ 0.102
1%6.63採択≈ 0.102

S = 2.67 < 2.71 なので、10% 水準でも帰無仮説を棄却できません。

正確なp値の計算

χ²(1) 分布での p値:

$$p\text{-value} = P(\chi^2(1) > 2.67) \approx 0.102$$

約 10.2% の確率で観測されるデータで、有意ではありません。

他の検定統計量との比較

Step 8: Wald・尤度比統計量との比較

Wald統計量:

$$W = \frac{(\bar{x} - \lambda_0)^2}{\bar{x}/n} = \frac{(3.2 - 3)^2}{3.2/200} = \frac{0.04}{0.016} = 2.5$$

尤度比統計量:

$$\Lambda = 2[\ell(3.2) - \ell(3)] \approx 2.58$$

三統計量の比較

検定統計量本例での値p値
スコア検定2.67χ²(1)0.102
Wald検定2.50χ²(1)0.114
尤度比検定≈ 2.58χ²(1)≈ 0.108

三者の値は近く、すべて有意ではない結果です。

ポアソン分布での特殊性

Step 9: 指数族としての性質

ポアソン分布は指数族に属し:

$$f(x;\lambda) = \exp\{x \log \lambda - \lambda - \log(x!)\}$$

標準形:f(x; θ) = exp{θT(x) - A(θ) + B(x)}

  • 自然パラメータ:θ = log λ
  • 十分統計量:T(x) = x
  • キュムラント関数:A(θ) = eᶿ = λ

指数族でのスコア検定の簡略化

指数族では情報量が簡単に計算できます:

$$I(\theta) = \frac{d^2 A(\theta)}{d\theta^2}$$

ポアソン分布では:

$$I(\log \lambda) = \frac{d^2 \lambda}{d(\log \lambda)^2} = \lambda$$

実際の応用例

Step 10: ポアソン過程での応用

ポアソン分布の実用場面

  • 品質管理:単位時間当たりの不良品数
  • 交通工学:単位時間当たりの車両通過数
  • 生物学:単位面積当たりの細胞数
  • 通信:単位時間当たりのパケット到着数
  • 保険:単位期間当たりの事故件数

多パラメータへの拡張

Step 11: 一般的なスコア検定

k次元パラメータ θ = (θ₁, ..., θₖ)' に対する線形制約:

$$H_0: R\boldsymbol{\theta} = \mathbf{r}$$

スコア統計量:

$$S = \mathbf{U}(\hat{\boldsymbol{\theta}}_0)' [R I^{-1}(\hat{\boldsymbol{\theta}}_0) R']^{-1} R I^{-1}(\hat{\boldsymbol{\theta}}_0) \mathbf{U}(\hat{\boldsymbol{\theta}}_0)$$

ここで θ̂₀ は制約下での推定量です。

回帰分析でのスコア検定

線形回帰での系列相関検定(Durbin-Watson検定の一般化):

  • H₀:誤差項に系列相関なし
  • スコア関数:OLS残差に基づく勾配
  • 情報行列:OLS推定値での情報行列

計算の詳細確認

Step 12: 数値計算の検証

項目計算式
スコア関数200(3.2-3)/340/3 ≈ 13.33
情報量200/3200/3 ≈ 66.67
スコア統計量(40/3)²/(200/3)8/3 ≈ 2.67
標準化統計量√(8/3)≈ 1.633

分数での厳密計算

すべて分数で計算すると:

$$S = \frac{(40/3)^2}{200/3} = \frac{1600/9}{200/3} = \frac{1600}{9} \times \frac{3}{200} = \frac{8}{3} = 2.\overline{6}$$

小数第2位まで:2.67

統計ソフトでの実装

主要ソフトでのスコア検定

ソフトウェア関数・コマンド特徴
Rscoretest(), lmtest::bgtest()豊富な検定実装
Pythonstatsmodels.stats.diagnostic診断検定に強い
SASPROC GENMOD (LAGRANGE)一般化線形モデル
Stataestat lagrange回帰診断

スコア検定の利点と限界

スコア検定の特徴

利点:

  1. 計算効率:制約下推定のみで実行可能
  2. 数値安定性:最適化の収束問題が少ない
  3. 理論的美しさ:ラグランジュ乗数法との対応
  4. 局所最適性:局所的に最も強力

限界:

  1. 局所性:大きな逸脱の検出力が劣る場合
  2. 方向性:逸脱の方向情報が得られない
  3. 複雑性:多制約の場合の解釈が困難

漸近理論の詳細

Step 13: 理論的基礎

スコア統計量の漸近分布は以下の理論に基づきます:

$$\sqrt{n} U(\theta_0) \xrightarrow{d} N(0, I(\theta_0))$$

したがって:

$$\frac{[U(\theta_0)]^2}{I(\theta_0)} \xrightarrow{d} \chi^2(1)$$

収束速度と精度

標本サイズ近似精度推奨用途
n < 50やや粗い注意して使用
50 ≤ n < 100良好一般的使用
n ≥ 100高精度十分信頼できる
n ≥ 200非常に高精度理論値にほぼ一致

本例の n = 200 は十分大きく、漸近近似が良く働きます。

実用的な応用例

回帰診断でのスコア検定

  • Breusch-Pagan検定:不均一分散の検定
  • Breusch-Godfrey検定:系列相関の検定
  • Ramsey RESET検定:関数形の誤設定検定
  • White検定:不均一分散の頑健検定

これらすべてがスコア検定の原理に基づいています。

結果の解釈と報告

実際の研究報告例:

「ポアソン分布 Po(λ) からの標本サイズ n=200、標本平均 x̄=3.2 のデータについて、H₀: λ=3 に対するスコア検定を実施した。制約下(λ=3)でのスコア関数 U(3) = 40/3、フィッシャー情報量 I(3) = 200/3 より、スコア統計量 S = (40/3)²/(200/3) = 8/3 ≈ 2.67 を得た。χ²(1) 分布の 10% 臨界値 2.71 を下回るため (p=0.102)、通常の有意水準で帰無仮説を棄却せず、λ = 3 と矛盾しないと結論する。」

問題 1/10