極限・漸近理論

中心極限定理、デルタ法、スルツキーの定理など統計検定準1級レベルの漸近理論を学習します。

タイトルをここに レベル1

問題はここに

解説
解答と解説を表示

大数の法則(Law of Large Numbers)の理論と応用

大数の法則は確率論の基礎的定理で、標本平均が母集団平均に収束することを示します。統計学の実証的基盤を提供する重要な定理です。

大数の法則の意義

理論的基盤:確率の頻度解釈の数学的根拠を提供します。実用的重要性:標本サイズを大きくすることで推定精度が向上することを保証します。

Step 1: 問題設定の確認

ベルヌーイ分布 B(1, p=0.3):

  • 期待値:E[Xᵢ] = p = 0.3
  • 分散:Var(Xᵢ) = p(1-p) = 0.3 × 0.7 = 0.21
  • 標本サイズ:n = 1000

標本平均:X̄ₙ = (X₁ + X₂ + ... + Xₙ)/n

標本平均の性質

統計量計算
期待値0.3E[X̄ₙ] = E[Xᵢ] = 0.3
分散0.00021Var(X̄ₙ) = Var(Xᵢ)/n = 0.21/1000
標準偏差0.0145SD(X̄ₙ) = √(0.21/1000)

Step 2: チェビシェフの不等式の適用

チェビシェフの不等式:任意の確率変数Yと定数k > 0に対して

$$P(|Y - E[Y]| \geq k) \leq \frac{Var(Y)}{k^2}$$

本問では:

  • Y = X̄ₙ
  • E[Y] = 0.3
  • k = 0.05
  • Var(Y) = 0.21/1000 = 0.00021
$$P(|\bar{X}_n - 0.3| > 0.05) \leq \frac{0.00021}{(0.05)^2} = \frac{0.00021}{0.0025} = 0.084$$

Step 3: 計算の詳細

分子の計算:

$$Var(\bar{X}_n) = \frac{Var(X_i)}{n} = \frac{p(1-p)}{n} = \frac{0.3 \times 0.7}{1000} = \frac{0.21}{1000} = 0.00021$$

分母の計算:

$$k^2 = (0.05)^2 = 0.0025$$

不等式の上界:

$$\frac{0.00021}{0.0025} = \frac{21 \times 10^{-5}}{25 \times 10^{-4}} = \frac{21}{25 \times 10} = \frac{21}{250} = 0.084$$

小数第3位まで:0.084

大数の法則の種類

法則収束の種類条件強さ
弱法則確率収束有限分散
強法則概収束有限期待値
Kolmogorov概収束独立同分布最強

Step 4: 結果の解釈

チェビシェフの不等式により:

  • 上界:P(|X̄ₙ - 0.3| > 0.05) ≤ 0.084
  • 意味:標本平均が真の値から0.05以上離れる確率は最大8.4%
  • 実際の確率:通常はこの上界よりもずっと小さい

より精密な確率の計算

Step 5: 正規近似による比較

n = 1000は十分大きいので、中心極限定理により:

$$\bar{X}_n \sim N\left(0.3, \frac{0.21}{1000}\right) = N(0.3, 0.00021)$$

標準化:

$$Z = \frac{\bar{X}_n - 0.3}{\sqrt{0.00021}} = \frac{\bar{X}_n - 0.3}{0.0145}$$

正規近似による確率:

$$P(|\bar{X}_n - 0.3| > 0.05) = P\left(|Z| > \frac{0.05}{0.0145}\right) = P(|Z| > 3.45) \approx 0.0006$$

これはチェビシェフの上界0.084よりもずっと小さい値です。

収束の速度比較

手法確率の値精度適用条件
チェビシェフ不等式≤ 0.084粗い上界分布によらない
正規近似≈ 0.0006高精度CLT条件
ベルヌーイ厳密解≈ 0.0005厳密分布特定

サンプルサイズと精度の関係

Step 6: サンプルサイズの効果

チェビシェフ不等式の上界がnに与える影響:

$$P(|\bar{X}_n - \mu| > \epsilon) \leq \frac{\sigma^2}{n\epsilon^2}$$
サンプルサイズ上界値改善比
1000.84基準
4000.214倍改善
10000.08410倍改善
25000.033625倍改善

サンプルサイズをk倍にすると、上界は1/k倍になります。

実際のデータサイエンスでの応用

A/Bテスト

  • コンバージョン率:ベルヌーイ分布に従う
  • 必要サンプルサイズ:誤差許容範囲から決定
  • 信頼性保証:大数の法則による理論的根拠

ベルヌーイ分布での特殊性

Step 7: ベルヌーイ分布の性質

ベルヌーイ分布B(1, p)では:

  • 分散:Var(X) = p(1-p) ≤ 1/4(p = 0.5で最大)
  • 本例:p = 0.3なので分散は0.21
  • 最大分散の場合:p = 0.5なら分散は0.25
$$最大上界 = \frac{0.25}{1000 \times (0.05)^2} = \frac{0.25}{2.5} = 0.1$$

p = 0.3の場合の上界0.084は、この最大値より小さくなっています。

チェビシェフ不等式の限界と改良

手法特徴上界の質適用範囲
チェビシェフ分布自由粗い全分布
Cantelli片側版やや改善全分布
Hoeffding有界変数指数的減衰有界分布
Bernstein準ガウス高精度軽尾分布

実用的な誤差制御

Step 8: 必要サンプルサイズの設計

誤差εと信頼度1-αに対して、必要なサンプルサイズは:

$$n \geq \frac{p(1-p)}{\alpha \epsilon^2}$$

本例で95%信頼度(α = 0.05)、誤差0.05を保証するには:

$$n \geq \frac{0.21}{0.05 \times (0.05)^2} = \frac{0.21}{0.000125} = 1680$$

実際のn = 1000では若干不足していることがわかります。

大数の法則の歴史と発展

  • Bernoulli (1713):最初の弱法則の証明
  • Chebyshev (1867):一般的な弱法則
  • Borel (1909):強法則の概念
  • Kolmogorov (1930):現代的な強法則
  • Ergodic理論:時系列への拡張

実証研究での意味

Step 9: 統計的推論への影響

大数の法則が保証すること

  1. 標本平均の一致性:n → ∞で母平均に収束
  2. 推定量の信頼性:十分大きなサンプルでの精度
  3. モンテカルロ法:シミュレーション結果の収束性
  4. 機械学習:経験リスクの理論リスクへの収束

計算の検証と応用例

Step 10: 数値例での確認

具体的な計算過程:

$$P(|\bar{X}_{1000} - 0.3| > 0.05) \leq \frac{Var(\bar{X}_{1000})}{(0.05)^2}$$
$$= \frac{0.3 \times 0.7 / 1000}{0.0025} = \frac{0.00021}{0.0025} = 0.084$$

この結果は、標本サイズ1000でも、真の値から±0.05以上離れる可能性が最大8.4%あることを示しています。

実際のビジネス応用

分野応用例ベルヌーイ変数実用的意味
マーケティングCTR測定クリック有無広告効果の信頼性
品質管理不良率推定良品/不良品品質保証レベル
医療治療効果改善有無臨床試験の信頼性
金融デフォルト率正常/デフォルトリスク管理

結果の報告例

学術論文での報告:

「ベルヌーイ分布B(1, 0.3)から1000個の標本を抽出した場合、チェビシェフの不等式により、標本平均が真の値0.3から0.05以上離れる確率は最大8.4%と上界づけられる。この結果は分布によらない保守的な評価であり、実際の偏差確率はより小さいと期待される。」

問題 1/10