漸近理論問題9 - 青の統計学-DS Playground-

タイトルをここにレベル1

問題はここに

解説

解答と解説を表示

漸近効率性（Asymptotic Efficiency）とCramér-Rao下界の理論

漸近効率性は推定量の優劣を判定する最も重要な基準の一つです。効率的な推定量は与えられた情報から最大限の精度を引き出し、実用上極めて価値があります。

効率性の重要性

統計的精度：同じデータからより正確な推定を得られます。経済性：少ないサンプルサイズで同等の精度を達成できます。

Step 1: 効率性の定義

2つの不偏推定量 T₁, T₂ に対する相対効率性：

$$\text{Efficiency}(T_2, T_1) = \frac{Var(T_1)}{Var(T_2)}$$

この値が1に近いほど T₂ は T₁ と同程度に効率的です。

Cramér-Rao下界

任意の不偏推定量 T に対して：

$$Var(T) \geq \frac{1}{nI(\theta)}$$

ここで I(θ) はフィッシャー情報量です。この下界を達成する推定量が「効率的」と呼ばれます。

推定量	特徴	効率性
効率的推定量	下界を達成	最高
MLE（正則条件下）	漸近効率的	漸近最高
UMVUE	最小分散不偏	有限標本最高

Step 2: 各推定量の分散計算

正規分布 N(μ, σ²=4) に対して：

T₁ = X̄ の分散：

$$Var(T_1) = Var(\bar{X}) = \frac{\sigma^2}{n} = \frac{4}{100} = 0.04$$

T₂ = (X₁ + X₂)/2 の分散：

$$Var(T_2) = Var\left(\frac{X_1 + X_2}{2}\right) = \frac{1}{4}[Var(X_1) + Var(X_2)]$$

$$= \frac{1}{4}[4 + 4] = \frac{8}{4} = 2$$

Step 3: 相対効率性の計算

$$\text{Efficiency}(T_2, T_1) = \frac{Var(T_1)}{Var(T_2)} = \frac{0.04}{2} = 0.02$$

小数第3位まで：0.020

結果の解釈

T₂ の効率性は T₁ のわずか 2% です。これは：

情報の損失：98個の観測値を無視している
分散の増大：T₂ の分散は T₁ の50倍
実用性の欠如：T₂ は実際には使用されない

漸近効率性の理論的基礎

Step 4: フィッシャー情報量による分析

正規分布 N(μ, σ²=4) でのフィッシャー情報量：

$$I(\mu) = \frac{1}{\sigma^2} = \frac{1}{4}$$

n個の独立標本での情報量：

$$I_n(\mu) = nI(\mu) = \frac{n}{4} = \frac{100}{4} = 25$$

Cramér-Rao下界：

$$\text{下界} = \frac{1}{I_n(\mu)} = \frac{1}{25} = 0.04$$

T₁ はこの下界を達成しているため効率的です。

効率的推定量の特徴

推定量	分散	下界比	効率性
T₁ = X̄	0.04	0.04/0.04 = 1	100%
T₂ = (X₁+X₂)/2	2.0	0.04/2.0 = 0.02	2%
X₁ のみ	4.0	0.04/4.0 = 0.01	1%

大標本理論での位置づけ

Step 5: 漸近相対効率性

一般に、2つの推定量 Tₙ⁽¹⁾, Tₙ⁽²⁾ の漸近相対効率性（ARE）は：

$$\text{ARE}(T_n^{(2)}, T_n^{(1)}) = \lim_{n \to \infty} \frac{nVar(T_n^{(1)})}{nVar(T_n^{(2)})}$$

本例では：

T₁：nVar(T₁) = n × (4/n) = 4
T₂：nVar(T₂) = n × 2 = 200n

$$\text{ARE}(T_2, T_1) = \lim_{n \to \infty} \frac{4}{200n} = 0$$

T₂ は漸近的に完全に非効率になります。

実用的な意味

効率性 0.02 の意味：

等価サンプルサイズ：T₂ で n=100 は T₁ で n=2 と同等
必要サンプルサイズ：T₂ で T₁ と同精度を得るには50倍のデータが必要
コスト：データ収集コストが50倍必要

他の推定量との比較

Step 6: 様々な推定量の効率性

推定量	定義	分散	効率性
標本平均	X̄	σ²/n = 0.04	100%
標本中央値	Median	πσ²/(2n) ≈ 0.063	63.7%
切断平均	5%切断	約 1.25σ²/n ≈ 0.05	80%
部分平均	(X₁+...+Xₖ)/k	σ²/k	k/n × 100%

頑健性 vs 効率性のトレードオフ

効率性が最高でない推定量にも利点があります：

標本中央値：外れ値に頑健、効率性は約64%
切断平均：適度に頑健、効率性は約80%
M推定量：頑健性と効率性のバランス

効率性の計算例

Step 7: 数値例による確認

真の値 μ = 10, σ² = 4 でのシミュレーション結果（10,000回）：

推定量	理論分散	実験分散	理論効率性	実験効率性
T₁	0.040	0.0398	100%	100%
T₂	2.000	2.003	2.0%	1.99%

理論値と実験値がよく一致しています。

効率性損失の定量化

効率性 2% は以下を意味します：

$$\frac{1}{0.02} = 50$$

T₂ で T₁ と同じ精度を得るには50倍のサンプルが必要です。

最適性理論との関連

Step 8: Gauss-Markovの定理

線形不偏推定量の中で標本平均が最小分散を持つことは Gauss-Markov の定理で保証されています：

$$T = \sum_{i=1}^n a_i X_i, \quad \sum_{i=1}^n a_i = 1 \quad (不偏性)$$

この中で Var(T) を最小化するのは aᵢ = 1/n（すべて等重み）です。

最適重みの導出

制約条件 Σaᵢ = 1 下で Var(T) = σ²Σaᵢ² を最小化：

ラグランジュ乗数法により aᵢ = 1/n が最適解です。

重み配分	推定量	分散	効率性
等重み	X̄	σ²/n	100%
先頭2個のみ	(X₁+X₂)/2	σ²/2	2/n × 100%
任意の2個	(Xᵢ+Xⱼ)/2	σ²/2	2/n × 100%

実際の問題での応用

Step 9: 実用場面での効率性

効率性が重要な場面

高価なデータ：医療検査、破壊検査など
時間制約：リアルタイム処理が必要な場合
大規模データ：計算効率と統計効率の両立
品質管理：継続的監視での精度向上

漸近理論の詳細

Step 10: 一般的な効率性理論

一般的な設定で、推定量 Tₙ の漸近効率性は：

$$\text{Efficiency} = \frac{\text{Cramér-Rao下界}}{\text{漸近分散}}$$

MLEの場合：

$$\sqrt{n}(\hat{\theta}_{MLE} - \theta) \xrightarrow{d} N(0, I^{-1}(\theta))$$

これにより効率性は1（100%）になります。

効率的推定量の例

分布	パラメータ	効率的推定量	効率性
正規分布	μ (σ²既知)	標本平均	100%
指数分布	λ	1/標本平均	100%
ベルヌーイ	p	標本比率	100%
ポアソン	λ	標本平均	100%

計算の詳細確認

Step 11: 段階的計算の検証

ステップ	計算	結果
T₁の分散	σ²/n = 4/100	0.04
T₂の分散	(σ²+σ²)/4 = 8/4	2.0
効率性	0.04/2.0	0.02
パーセント	0.02 × 100%	2%

独立性の確認

T₂ = (X₁ + X₂)/2 の分散計算：

$$Var(T_2) = Var\left(\frac{X_1 + X_2}{2}\right) = \frac{1}{4}Var(X_1 + X_2)$$

X₁, X₂ は独立なので：

$$= \frac{1}{4}[Var(X_1) + Var(X_2)] = \frac{1}{4}[4 + 4] = 2$$

統計ソフトでの実装

効率性計算の実装例

ソフトウェア	関数・方法	特徴
R	var(), efficiency 自作関数	柔軟な計算
Python	numpy.var(), 手計算	数値計算
Matlab	var(), カスタム関数	行列計算
理論計算	手計算	正確

実用的含意

Step 12: データ分析での教訓

実践的ガイドライン

全データ使用：利用可能なデータをすべて活用する
重み付け検討：データの質に応じた重み付け
頑健性評価：外れ値に対する頑健性も考慮
計算効率：統計効率と計算効率のバランス

結果の解釈と報告

実際の研究報告例：

「正規分布 N(μ, 4) からの標本 n=100 について、μ の推定に標本平均 T₁=X̄ と部分平均 T₂=(X₁+X₂)/2 を比較した。T₁ の分散は 0.04、T₂ の分散は 2.0 となり、T₂ の T₁ に対する相対効率性は 0.04/2.0 = 0.02（2%）と計算された。これは T₂ で T₁ と同等の精度を得るには50倍のサンプルが必要であることを意味し、全データを活用する重要性を示している。」

極限・漸近理論