極限・漸近理論

中心極限定理、デルタ法、スルツキーの定理など統計検定準1級レベルの漸近理論を学習します。

タイトルをここに レベル1

問題はここに

解説
解答と解説を表示

漸近効率性(Asymptotic Efficiency)とCramér-Rao下界の理論

漸近効率性は推定量の優劣を判定する最も重要な基準の一つです。効率的な推定量は与えられた情報から最大限の精度を引き出し、実用上極めて価値があります。

効率性の重要性

統計的精度:同じデータからより正確な推定を得られます。経済性:少ないサンプルサイズで同等の精度を達成できます。

Step 1: 効率性の定義

2つの不偏推定量 T₁, T₂ に対する相対効率性:

$$\text{Efficiency}(T_2, T_1) = \frac{Var(T_1)}{Var(T_2)}$$

この値が1に近いほど T₂ は T₁ と同程度に効率的です。

Cramér-Rao下界

任意の不偏推定量 T に対して:

$$Var(T) \geq \frac{1}{nI(\theta)}$$

ここで I(θ) はフィッシャー情報量です。この下界を達成する推定量が「効率的」と呼ばれます。

推定量特徴効率性
効率的推定量下界を達成最高
MLE(正則条件下)漸近効率的漸近最高
UMVUE最小分散不偏有限標本最高

Step 2: 各推定量の分散計算

正規分布 N(μ, σ²=4) に対して:

T₁ = X̄ の分散:

$$Var(T_1) = Var(\bar{X}) = \frac{\sigma^2}{n} = \frac{4}{100} = 0.04$$

T₂ = (X₁ + X₂)/2 の分散:

$$Var(T_2) = Var\left(\frac{X_1 + X_2}{2}\right) = \frac{1}{4}[Var(X_1) + Var(X_2)]$$
$$= \frac{1}{4}[4 + 4] = \frac{8}{4} = 2$$

Step 3: 相対効率性の計算

$$\text{Efficiency}(T_2, T_1) = \frac{Var(T_1)}{Var(T_2)} = \frac{0.04}{2} = 0.02$$

小数第3位まで:0.020

結果の解釈

T₂ の効率性は T₁ のわずか 2% です。これは:

  • 情報の損失:98個の観測値を無視している
  • 分散の増大:T₂ の分散は T₁ の50倍
  • 実用性の欠如:T₂ は実際には使用されない

漸近効率性の理論的基礎

Step 4: フィッシャー情報量による分析

正規分布 N(μ, σ²=4) でのフィッシャー情報量:

$$I(\mu) = \frac{1}{\sigma^2} = \frac{1}{4}$$

n個の独立標本での情報量:

$$I_n(\mu) = nI(\mu) = \frac{n}{4} = \frac{100}{4} = 25$$

Cramér-Rao下界:

$$\text{下界} = \frac{1}{I_n(\mu)} = \frac{1}{25} = 0.04$$

T₁ はこの下界を達成しているため効率的です。

効率的推定量の特徴

推定量分散下界比効率性
T₁ = X̄0.040.04/0.04 = 1100%
T₂ = (X₁+X₂)/22.00.04/2.0 = 0.022%
X₁ のみ4.00.04/4.0 = 0.011%

大標本理論での位置づけ

Step 5: 漸近相対効率性

一般に、2つの推定量 Tₙ⁽¹⁾, Tₙ⁽²⁾ の漸近相対効率性(ARE)は:

$$\text{ARE}(T_n^{(2)}, T_n^{(1)}) = \lim_{n \to \infty} \frac{nVar(T_n^{(1)})}{nVar(T_n^{(2)})}$$

本例では:

  • T₁:nVar(T₁) = n × (4/n) = 4
  • T₂:nVar(T₂) = n × 2 = 200n
$$\text{ARE}(T_2, T_1) = \lim_{n \to \infty} \frac{4}{200n} = 0$$

T₂ は漸近的に完全に非効率になります。

実用的な意味

効率性 0.02 の意味:

  • 等価サンプルサイズ:T₂ で n=100 は T₁ で n=2 と同等
  • 必要サンプルサイズ:T₂ で T₁ と同精度を得るには50倍のデータが必要
  • コスト:データ収集コストが50倍必要

他の推定量との比較

Step 6: 様々な推定量の効率性

推定量定義分散効率性
標本平均σ²/n = 0.04100%
標本中央値Medianπσ²/(2n) ≈ 0.06363.7%
切断平均5%切断約 1.25σ²/n ≈ 0.0580%
部分平均(X₁+...+Xₖ)/kσ²/kk/n × 100%

頑健性 vs 効率性のトレードオフ

効率性が最高でない推定量にも利点があります:

  • 標本中央値:外れ値に頑健、効率性は約64%
  • 切断平均:適度に頑健、効率性は約80%
  • M推定量:頑健性と効率性のバランス

効率性の計算例

Step 7: 数値例による確認

真の値 μ = 10, σ² = 4 でのシミュレーション結果(10,000回):

推定量理論分散実験分散理論効率性実験効率性
T₁0.0400.0398100%100%
T₂2.0002.0032.0%1.99%

理論値と実験値がよく一致しています。

効率性損失の定量化

効率性 2% は以下を意味します:

$$\frac{1}{0.02} = 50$$

T₂ で T₁ と同じ精度を得るには50倍のサンプルが必要です。

最適性理論との関連

Step 8: Gauss-Markovの定理

線形不偏推定量の中で標本平均が最小分散を持つことは Gauss-Markov の定理で保証されています:

$$T = \sum_{i=1}^n a_i X_i, \quad \sum_{i=1}^n a_i = 1 \quad (不偏性)$$

この中で Var(T) を最小化するのは aᵢ = 1/n(すべて等重み)です。

最適重みの導出

制約条件 Σaᵢ = 1 下で Var(T) = σ²Σaᵢ² を最小化:

ラグランジュ乗数法により aᵢ = 1/n が最適解です。

重み配分推定量分散効率性
等重みσ²/n100%
先頭2個のみ(X₁+X₂)/2σ²/22/n × 100%
任意の2個(Xᵢ+Xⱼ)/2σ²/22/n × 100%

実際の問題での応用

Step 9: 実用場面での効率性

効率性が重要な場面

  • 高価なデータ:医療検査、破壊検査など
  • 時間制約:リアルタイム処理が必要な場合
  • 大規模データ:計算効率と統計効率の両立
  • 品質管理:継続的監視での精度向上

漸近理論の詳細

Step 10: 一般的な効率性理論

一般的な設定で、推定量 Tₙ の漸近効率性は:

$$\text{Efficiency} = \frac{\text{Cramér-Rao下界}}{\text{漸近分散}}$$

MLEの場合:

$$\sqrt{n}(\hat{\theta}_{MLE} - \theta) \xrightarrow{d} N(0, I^{-1}(\theta))$$

これにより効率性は1(100%)になります。

効率的推定量の例

分布パラメータ効率的推定量効率性
正規分布μ (σ²既知)標本平均100%
指数分布λ1/標本平均100%
ベルヌーイp標本比率100%
ポアソンλ標本平均100%

計算の詳細確認

Step 11: 段階的計算の検証

ステップ計算結果
T₁の分散σ²/n = 4/1000.04
T₂の分散(σ²+σ²)/4 = 8/42.0
効率性0.04/2.00.02
パーセント0.02 × 100%2%

独立性の確認

T₂ = (X₁ + X₂)/2 の分散計算:

$$Var(T_2) = Var\left(\frac{X_1 + X_2}{2}\right) = \frac{1}{4}Var(X_1 + X_2)$$

X₁, X₂ は独立なので:

$$= \frac{1}{4}[Var(X_1) + Var(X_2)] = \frac{1}{4}[4 + 4] = 2$$

統計ソフトでの実装

効率性計算の実装例

ソフトウェア関数・方法特徴
Rvar(), efficiency 自作関数柔軟な計算
Pythonnumpy.var(), 手計算数値計算
Matlabvar(), カスタム関数行列計算
理論計算手計算正確

実用的含意

Step 12: データ分析での教訓

実践的ガイドライン

  1. 全データ使用:利用可能なデータをすべて活用する
  2. 重み付け検討:データの質に応じた重み付け
  3. 頑健性評価:外れ値に対する頑健性も考慮
  4. 計算効率:統計効率と計算効率のバランス

結果の解釈と報告

実際の研究報告例:

「正規分布 N(μ, 4) からの標本 n=100 について、μ の推定に標本平均 T₁=X̄ と部分平均 T₂=(X₁+X₂)/2 を比較した。T₁ の分散は 0.04、T₂ の分散は 2.0 となり、T₂ の T₁ に対する相対効率性は 0.04/2.0 = 0.02(2%)と計算された。これは T₂ で T₁ と同等の精度を得るには50倍のサンプルが必要であることを意味し、全データを活用する重要性を示している。」

問題 1/10