少数法則(Law of Small Numbers)とPoisson近似
少数法則は、大数の法則と並んで確率論の基本定理の一つで、二項分布のPoisson分布による近似を与えます。1898年にBoris Bortkiewiczによって発見され、多くの実用的な応用を持つ重要な理論です。
少数法則の条件
条件:n → ∞, p → 0, np → λ(有限値)のとき
結論:二項分布B(n,p)はPoisson分布Po(λ)に分布収束
Step 1: 問題設定の確認
- 試行回数:n = 1000
- 成功確率:pₙ = 3/1000 = 0.003
- 成功回数:Sₙ ~ B(1000, 0.003)
- Poissonパラメータ:λ = npₙ = ?
Step 2: Poissonパラメータの計算
少数法則により、λ = npₙ を計算:
$$\lambda = n \times p_n = 1000 \times 0.003 = 3$$
したがって、Sₙ は近似的に Po(3) に従います。
Step 3: P(Sₙ = 2)の計算
Poisson分布Po(λ)の確率質量関数:
$$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$$
λ = 3, k = 2 を代入:
$$P(S_n = 2) \approx \frac{3^2 e^{-3}}{2!} = \frac{9 e^{-3}}{2}$$
e⁻³ ≈ 0.0498 を用いて:
$$P(S_n = 2) \approx \frac{9 \times 0.0498}{2} = \frac{0.4482}{2} = 0.2241$$
小数第4位まで:0.2240
計算の確認
正確な値を用いた計算:
$$e^{-3} = 0.049787...$$
$$P(S_n = 2) = \frac{9 \times 0.049787}{2} = \frac{0.448083}{2} = 0.224041...$$
四捨五入により:0.2240
少数法則の理論的背景
Step 4: 分布収束の証明概要
二項分布の確率質量関数:
$$P(S_n = k) = \binom{n}{k} p_n^k (1-p_n)^{n-k}$$
np_n → λ, p_n → 0 の条件下で:
$$\lim_{n \to \infty} \binom{n}{k} p_n^k (1-p_n)^{n-k} = \frac{\lambda^k e^{-\lambda}}{k!}$$
証明の要点:
- 二項係数の漸近展開
- 対数変換による近似
- 極限操作の正当化
収束の速度
Chen-Steinの手法により、近似の誤差は:
$$\left|P(S_n = k) - \frac{\lambda^k e^{-\lambda}}{k!}\right| \leq 2p_n$$
本問では誤差 ≤ 2 × 0.003 = 0.006 です。
具体例での精度確認
Step 5: 二項分布との比較
正確な二項分布での計算:
$$P(S_n = 2) = \binom{1000}{2} (0.003)^2 (0.997)^{998}$$
$$= \frac{1000 \times 999}{2} \times 0.000009 \times (0.997)^{998}$$
$$= 499500 \times 0.000009 \times 0.04979 = 0.2240$$
Poisson近似と非常によく一致しています!
近似精度の評価
k | 二項分布(正確値) | Poisson近似 | 誤差 |
---|
0 | 0.0498 | 0.0498 | 0.0000 |
1 | 0.1494 | 0.1494 | 0.0000 |
2 | 0.2240 | 0.2240 | 0.0000 |
3 | 0.2240 | 0.2240 | 0.0000 |
歴史的発展と応用
Step 6: Bortkiewiczの研究
1898年、Bortkiewiczは「少数の法則」を発表し、以下を分析:
- プロシア軍での馬による死亡事故:年間死者数の分布
- 観測期間:20年間、14の軍団
- 結果:Poisson分布による優れた近似
古典的応用例
現象 | n | p | λ = np | 解釈 |
---|
馬による死亡 | 大 | 小 | 0.61 | 稀な事故 |
放射性崩壊 | 大 | 小 | 変数 | 物理現象 |
電話接続数 | 大 | 小 | 変数 | 待ち行列理論 |
遺伝子変異 | 大 | 小 | 変数 | 生物学 |
現代の応用分野
Step 7: 品質管理での応用
製造業での不良品発生:
- 設定:n = 10000個生産、不良率p = 0.0005
- 近似:λ = 10000 × 0.0005 = 5
- 応用:不良品数の分布予測
$$P(\text{不良品数} = k) \approx \frac{5^k e^{-5}}{k!}$$
現代的応用分野
- ネットワーク理論:パケット到着プロセス
- 疫学:稀少疾患の発生率
- 金融工学:信用リスクのモデル化
- 機械学習:スパースデータの統計的解析
数学的性質と拡張
Step 8: Poisson分布の性質
基本統計量
- 平均:E[X] = λ
- 分散:Var(X) = λ
- 特徴:平均と分散が等しい
積率母関数:
$$M_X(t) = e^{\lambda(e^t - 1)}$$
確率母関数:
$$G_X(s) = e^{\lambda(s - 1)}$$
Step 9: 再生性(加法性)
独立なPoisson分布の和も Poisson分布:
$$X_1 \sim \text{Po}(\lambda_1), X_2 \sim \text{Po}(\lambda_2) \Rightarrow X_1 + X_2 \sim \text{Po}(\lambda_1 + \lambda_2)$$
Poisson過程との関連
時間間隔 [0,t] でのPoisson過程の事象数:
$$N(t) \sim \text{Po}(\lambda t)$$
ここで λ は強度パラメータです。
近似精度の理論
Step 10: Total Variation距離
二項分布とPoisson分布の近似精度:
$$d_{TV}(\text{B}(n,p), \text{Po}(np)) \leq \min(1, \sqrt{\frac{2p}{\pi}})$$
本問では p = 0.003 なので:
$$d_{TV} \leq \sqrt{\frac{2 \times 0.003}{\pi}} = \sqrt{\frac{0.006}{\pi}} \approx 0.0437$$
実用的な近似基準
- 良好な近似:n ≥ 20, p ≤ 0.05, np ≤ 5
- 優秀な近似:n ≥ 100, p ≤ 0.01
- 本問:n = 1000, p = 0.003 → 優秀な近似
計算手法と実装
Step 11: 数値計算の技法
主要ソフトウェアでの実装
ソフトウェア | 関数 | 例 |
---|
R | dpois() | dpois(2, lambda=3) |
Python | poisson.pmf() | poisson.pmf(2, mu=3) |
Excel | POISSON.DIST() | POISSON.DIST(2,3,FALSE) |
MATLAB | poisspdf() | poisspdf(2,3) |
統計的推論への応用
Step 12: 仮説検定
Poisson分布を仮定した適合度検定:
$$H_0: X \sim \text{Po}(\lambda) \quad \text{vs} \quad H_1: X \not\sim \text{Po}(\lambda)$$
χ²適合度検定を使用:
$$\chi^2 = \sum_{i} \frac{(O_i - E_i)^2}{E_i}$$
信頼区間の構築
Poissonパラメータ λ の信頼区間:
- 正規近似:λ ± 1.96√(λ/n) (λが大きい時)
- 正確法:χ²分布による正確信頼区間
- ベイズ法:ガンマ事前分布を使用
一般化と拡張
Step 13: 関連分布
Poisson分布の拡張
- 複合Poisson:事象サイズが確率変数
- 負の二項分布:過分散への対応
- ゼロ過剰Poisson:ゼロが過多な場合
- 切断Poisson:観測範囲が制限される場合
実際の計算例
Step 14: 段階的計算
ステップ | 計算 | 結果 |
---|
1. λの計算 | 1000 × 0.003 | 3 |
2. 3²の計算 | 3 × 3 | 9 |
3. e⁻³の計算 | 1/e³ | 0.049787 |
4. 2!の計算 | 2 × 1 | 2 |
5. 最終計算 | 9 × 0.049787 / 2 | 0.2240 |
近似の正当性
少数法則の条件確認:
- n = 1000:十分大きい ✓
- p = 0.003:十分小さい ✓
- np = 3:適度な値 ✓
- 結論:優秀な近似が期待できる
結果の解釈と報告
実際の研究報告例:
「n=1000の独立試行において成功確率p=0.003の二項過程を考察した。少数法則の条件(n大、p小、np有限)が満たされるため、成功回数Sₙはパラメータλ=np=3のPoisson分布で近似できる。P(Sₙ=2)の計算では、Poisson分布の確率質量関数を用いて P(Sₙ=2) ≈ (3²e⁻³)/2! = 0.2240 となった。この近似は Chen-Stein不等式により誤差が最大2p=0.006以下であることが保証される。」