漸近理論問題2 - 青の統計学-DS Playground-

タイトルをここにレベル1

問題はここに

解説

解答と解説を表示

大数の法則（Law of Large Numbers）の理論と応用

大数の法則は確率論の基礎的定理で、標本平均が母集団平均に収束することを示します。統計学の実証的基盤を提供する重要な定理です。

大数の法則の意義

理論的基盤：確率の頻度解釈の数学的根拠を提供します。実用的重要性：標本サイズを大きくすることで推定精度が向上することを保証します。

Step 1: 問題設定の確認

ベルヌーイ分布 B(1, p=0.3)：

期待値：E[Xᵢ] = p = 0.3
分散：Var(Xᵢ) = p(1-p) = 0.3 × 0.7 = 0.21
標本サイズ：n = 1000

標本平均：X̄ₙ = (X₁ + X₂ + ... + Xₙ)/n

標本平均の性質

統計量	値	計算
期待値	0.3	E[X̄ₙ] = E[Xᵢ] = 0.3
分散	0.00021	Var(X̄ₙ) = Var(Xᵢ)/n = 0.21/1000
標準偏差	0.0145	SD(X̄ₙ) = √(0.21/1000)

Step 2: チェビシェフの不等式の適用

チェビシェフの不等式：任意の確率変数Yと定数k > 0に対して

$$P(|Y - E[Y]| \geq k) \leq \frac{Var(Y)}{k^2}$$

本問では：

Y = X̄ₙ
E[Y] = 0.3
k = 0.05
Var(Y) = 0.21/1000 = 0.00021

$$P(|\bar{X}_n - 0.3| > 0.05) \leq \frac{0.00021}{(0.05)^2} = \frac{0.00021}{0.0025} = 0.084$$

Step 3: 計算の詳細

分子の計算：

$$Var(\bar{X}_n) = \frac{Var(X_i)}{n} = \frac{p(1-p)}{n} = \frac{0.3 \times 0.7}{1000} = \frac{0.21}{1000} = 0.00021$$

分母の計算：

$$k^2 = (0.05)^2 = 0.0025$$

不等式の上界：

$$\frac{0.00021}{0.0025} = \frac{21 \times 10^{-5}}{25 \times 10^{-4}} = \frac{21}{25 \times 10} = \frac{21}{250} = 0.084$$

小数第3位まで：0.084

大数の法則の種類

法則	収束の種類	条件	強さ
弱法則	確率収束	有限分散	弱
強法則	概収束	有限期待値	強
Kolmogorov	概収束	独立同分布	最強

Step 4: 結果の解釈

チェビシェフの不等式により：

上界：P(|X̄ₙ - 0.3| > 0.05) ≤ 0.084
意味：標本平均が真の値から0.05以上離れる確率は最大8.4%
実際の確率：通常はこの上界よりもずっと小さい

より精密な確率の計算

Step 5: 正規近似による比較

n = 1000は十分大きいので、中心極限定理により：

$$\bar{X}_n \sim N\left(0.3, \frac{0.21}{1000}\right) = N(0.3, 0.00021)$$

標準化：

$$Z = \frac{\bar{X}_n - 0.3}{\sqrt{0.00021}} = \frac{\bar{X}_n - 0.3}{0.0145}$$

正規近似による確率：

$$P(|\bar{X}_n - 0.3| > 0.05) = P\left(|Z| > \frac{0.05}{0.0145}\right) = P(|Z| > 3.45) \approx 0.0006$$

これはチェビシェフの上界0.084よりもずっと小さい値です。

収束の速度比較

手法	確率の値	精度	適用条件
チェビシェフ不等式	≤ 0.084	粗い上界	分布によらない
正規近似	≈ 0.0006	高精度	CLT条件
ベルヌーイ厳密解	≈ 0.0005	厳密	分布特定

サンプルサイズと精度の関係

Step 6: サンプルサイズの効果

チェビシェフ不等式の上界がnに与える影響：

$$P(|\bar{X}_n - \mu| > \epsilon) \leq \frac{\sigma^2}{n\epsilon^2}$$

サンプルサイズ	上界値	改善比
100	0.84	基準
400	0.21	4倍改善
1000	0.084	10倍改善
2500	0.0336	25倍改善

サンプルサイズをk倍にすると、上界は1/k倍になります。

実際のデータサイエンスでの応用

A/Bテスト：

コンバージョン率：ベルヌーイ分布に従う
必要サンプルサイズ：誤差許容範囲から決定
信頼性保証：大数の法則による理論的根拠

ベルヌーイ分布での特殊性

Step 7: ベルヌーイ分布の性質

ベルヌーイ分布B(1, p)では：

分散：Var(X) = p(1-p) ≤ 1/4（p = 0.5で最大）
本例：p = 0.3なので分散は0.21
最大分散の場合：p = 0.5なら分散は0.25

$$最大上界 = \frac{0.25}{1000 \times (0.05)^2} = \frac{0.25}{2.5} = 0.1$$

p = 0.3の場合の上界0.084は、この最大値より小さくなっています。

チェビシェフ不等式の限界と改良

手法	特徴	上界の質	適用範囲
チェビシェフ	分布自由	粗い	全分布
Cantelli	片側版	やや改善	全分布
Hoeffding	有界変数	指数的減衰	有界分布
Bernstein	準ガウス	高精度	軽尾分布

実用的な誤差制御

Step 8: 必要サンプルサイズの設計

誤差εと信頼度1-αに対して、必要なサンプルサイズは：

$$n \geq \frac{p(1-p)}{\alpha \epsilon^2}$$

本例で95%信頼度（α = 0.05）、誤差0.05を保証するには：

$$n \geq \frac{0.21}{0.05 \times (0.05)^2} = \frac{0.21}{0.000125} = 1680$$

実際のn = 1000では若干不足していることがわかります。

大数の法則の歴史と発展

Bernoulli (1713)：最初の弱法則の証明
Chebyshev (1867)：一般的な弱法則
Borel (1909)：強法則の概念
Kolmogorov (1930)：現代的な強法則
Ergodic理論：時系列への拡張

実証研究での意味

Step 9: 統計的推論への影響

大数の法則が保証すること

標本平均の一致性：n → ∞で母平均に収束
推定量の信頼性：十分大きなサンプルでの精度
モンテカルロ法：シミュレーション結果の収束性
機械学習：経験リスクの理論リスクへの収束

計算の検証と応用例

Step 10: 数値例での確認

具体的な計算過程：

$$P(|\bar{X}_{1000} - 0.3| > 0.05) \leq \frac{Var(\bar{X}_{1000})}{(0.05)^2}$$

$$= \frac{0.3 \times 0.7 / 1000}{0.0025} = \frac{0.00021}{0.0025} = 0.084$$

この結果は、標本サイズ1000でも、真の値から±0.05以上離れる可能性が最大8.4%あることを示しています。

実際のビジネス応用

分野	応用例	ベルヌーイ変数	実用的意味
マーケティング	CTR測定	クリック有無	広告効果の信頼性
品質管理	不良率推定	良品/不良品	品質保証レベル
医療	治療効果	改善有無	臨床試験の信頼性
金融	デフォルト率	正常/デフォルト	リスク管理

結果の報告例

学術論文での報告：

「ベルヌーイ分布B(1, 0.3)から1000個の標本を抽出した場合、チェビシェフの不等式により、標本平均が真の値0.3から0.05以上離れる確率は最大8.4%と上界づけられる。この結果は分布によらない保守的な評価であり、実際の偏差確率はより小さいと期待される。」

極限・漸近理論