標本比率の漸近正規性
標本比率は二項分布から導かれる統計量で、中心極限定理により漸近正規分布に従います。
二項分布と標本比率の基本理論
Step 1: 二項分布の設定
$n$個の独立試行で成功回数を$X$とすると:
$X \sim \text{Binomial}(n, p)$
標本比率は:
$\hat{p} = \frac{X}{n}$
ここで$p$は真の成功確率(不良率)です。
Step 2: 二項分布の性質
二項分布$\text{Binomial}(n, p)$の期待値と分散:
$E[X] = np, \quad \text{Var}(X) = np(1-p)$
したがって、標本比率$\hat{p}$について:
$E[\hat{p}] = E\left[\frac{X}{n}\right] = \frac{E[X]}{n} = \frac{np}{n} = p$
$\text{Var}(\hat{p}) = \text{Var}\left(\frac{X}{n}\right) = \frac{\text{Var}(X)}{n^2} = \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}$
中心極限定理の適用
Step 3: 漸近正規性の理論
独立なベルヌーイ試行$Y_1, Y_2, \ldots, Y_n$($Y_i \sim \text{Bernoulli}(p)$)において、$X = \sum_{i=1}^n Y_i$とすると:
$\hat{p} = \frac{X}{n} = \frac{1}{n}\sum_{i=1}^n Y_i$
中心極限定理により、$n$が十分大きいとき:
$\sqrt{n}(\hat{p} - p) \xrightarrow{d} N(0, p(1-p))$
これは以下を意味します:
$\hat{p} \xrightarrow{d} N\left(p, \frac{p(1-p)}{n}\right)$
Step 4: 漸近分散の定義
標本比率$\hat{p}$の漸近分散は:
$\text{avar}(\hat{p}) = \frac{p(1-p)}{n}$
これは真の母数$p$に依存する理論的分散です。
具体的な計算
Step 5: 与えられた条件の整理
問題の設定:
- 標本サイズ:$n = 400$
- 観測された不良品数:80個
- 標本比率:$\hat{p} = \frac{80}{400} = 0.2$
- 真の不良率:$p = 0.2$(仮定)
Step 6: 漸近分散の計算
標本比率の漸近分散:
$\text{avar}(\hat{p}) = \frac{p(1-p)}{n} = \frac{0.2 \times (1-0.2)}{400} = \frac{0.2 \times 0.8}{400}$
$= \frac{0.16}{400} = 0.0004 = 4.0 \times 10^{-4}$
漸近正規性の応用
Step 7: 標準化統計量
標準化された標本比率:
$Z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} = \frac{\hat{p} - p}{\sqrt{\text{avar}(\hat{p})}}$
$n$が大きいとき、$Z \xrightarrow{d} N(0, 1)$です。
今回の例では:
$Z = \frac{0.2 - 0.2}{\sqrt{0.0004}} = \frac{0}{0.02} = 0$
Step 8: 信頼区間への応用
$p$の漸近95%信頼区間(ワルド信頼区間):
$\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$
ここで$\hat{p}$を$p$の推定値として使用します:
$0.2 \pm 1.96 \times \sqrt{\frac{0.2 \times 0.8}{400}} = 0.2 \pm 1.96 \times 0.02 = 0.2 \pm 0.0392$
したがって95%信頼区間は$[0.1608, 0.2392]$です。
漸近正規性の妥当性条件
正規近似の妥当性
経験則:
- $np \geq 5$かつ$n(1-p) \geq 5$:基本的な目安
- $np \geq 10$かつ$n(1-p) \geq 10$:より安全な基準
今回の検証:
- $np = 400 \times 0.2 = 80 \geq 10$ ✓
- $n(1-p) = 400 \times 0.8 = 320 \geq 10$ ✓
両条件を満たすので、正規近似は十分に妥当です。
実際の分散推定
Step 9: 推定分散の計算
実際には真の$p$は未知なので、推定分散を用います:
$\widehat{\text{Var}}(\hat{p}) = \frac{\hat{p}(1-\hat{p})}{n} = \frac{0.2 \times 0.8}{400} = 0.0004$
この場合、偶然にも真の値と一致しています。
Step 10: 他の信頼区間法との比較
| 手法 | 95%信頼区間 | 特徴 |
|---|
| ワルド法 | $[0.1608, 0.2392]$ | 最も単純、極端な$p$で問題 |
| ウィルソン法 | $[0.1625, 0.2423]$ | より安定、推奨される |
| クロッパー・ピアソン法 | $[0.1614, 0.2437]$ | 正確、保守的 |
デルタ法との関連
Step 11: ロジット変換
$p$が0や1に近い場合、ロジット変換が有用です:
$g(p) = \log\left(\frac{p}{1-p}\right) = \text{logit}(p)$
デルタ法により:
$g'(p) = \frac{1}{p(1-p)}$
$\text{avar}(g(\hat{p})) = [g'(p)]^2 \cdot \frac{p(1-p)}{n} = \frac{1}{[p(1-p)]^2} \cdot \frac{p(1-p)}{n} = \frac{1}{np(1-p)}$
今回の例では:
$\text{avar}(\text{logit}(\hat{p})) = \frac{1}{400 \times 0.2 \times 0.8} = \frac{1}{64} = 0.015625$
漸近有効性
Step 12: フィッシャー情報量との関係
ベルヌーイ分布のフィッシャー情報量:
$I(p) = \frac{1}{p(1-p)}$
$n$個の観測に対して:
$I_n(p) = \frac{n}{p(1-p)}$
クラメール・ラオ下界:
$\text{CRLB}(p) = \frac{1}{I_n(p)} = \frac{p(1-p)}{n}$
標本比率の分散$\frac{p(1-p)}{n}$は下界に一致するため、$\hat{p}$は漸近有効推定量です。
したがって、標本比率$\hat{p}$の漸近分散は$0.0004$です。