青の統計学-DS Playground-

離散型確率分布:二項分布とポアソン分布

Stage 3 — 第2章| 統計学基礎カリキュラム 推定学習時間:50〜60分 | 難易度:★★★☆☆


この章で学ぶこと

確率変数が理解できれば、次は「よく現れる確率分布」を学ぶステップです。 現実の多くの現象は、特定の分布のパターンに従います。そのパターンを知っていれば、複雑な計算をせずに確率を求めることができます。

この章で学ぶ2つの分布:

  • 二項分布:「成功か失敗か」を $n$ 回繰り返したとき、成功する回数の分布
  • ポアソン分布:一定時間・一定領域に「まれな事象」が起きる回数の分布

この章を終えると、こんなことができるようになります:

  • ベルヌーイ試行の条件を説明できる
  • 二項分布 $B(n, p)$ の確率質量関数を使って確率を計算できる
  • 二項分布の期待値・分散を公式から求められる
  • ポアソン分布が適用できる状況を判断できる
  • 二項分布とポアソン分布の関係(近似)を説明できる

1. ベルヌーイ試行

二項分布の基礎となる概念です。

ベルヌーイ試行(Bernoulli trial)の条件:

  1. 各試行の結果は「成功」か「失敗」の2択のみ
  2. 各試行は独立(前の結果が次に影響しない)
  3. 毎回の成功確率 $p$ は一定

例:

  • コインを投げる(表=成功、$p=0.5$)
  • 製品を1個検査する(良品=成功、$p=0.97$)
  • 薬の投与(回復=成功、$p=0.7$)

ベルヌーイ確率変数:

1回の試行の結果を $X$ とすると:

$P(X = 1) = p, \quad P(X = 0) = 1 - p$

$E[X] = p, \quad V[X] = p(1-p)$


2. 二項分布

関連教材(青の統計学)

2.1 定義

ベルヌーイ試行を $n$ 回繰り返したとき、成功回数 $X$ が従う分布を二項分布(Binomial Distribution)といい、$X \sim B(n, p)$ と書きます。

2.2 確率質量関数(PMF)

$n$ 回中 $k$ 回成功する確率:

$\boxed{P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n}$

各項の意味:

意味
$\binom{n}{k} = \dfrac{n!}{k!(n-k)!}$ $n$ 回中 $k$ 回を「どの回に成功するか」の選び方の数
$p^k$ $k$ 回成功する確率(独立なので掛け算)
$(1-p)^{n-k}$ 残り $n-k$ 回失敗する確率

例) コインを5回投げて、ちょうど3回表が出る確率($p=0.5$):

$P(X=3) = \binom{5}{3} (0.5)^3 (0.5)^2 = 10 \times 0.125 \times 0.25 = 0.3125$

2.3 期待値と分散

$E[X] = np$

$V[X] = np(1-p)$

導出のイメージ: $X = X_1 + X_2 + \cdots + X_n$(各 $X_i$ は独立なベルヌーイ確率変数)として、期待値の線形性と分散の加法性を使えば自然に導けます。

例) コイン10回投げ:

$E[X] = 10 \times 0.5 = 5, \quad V[X] = 10 \times 0.5 \times 0.5 = 2.5, \quad \sigma = \sqrt{2.5} \approx 1.58$


[図1] 二項分布 $B(10, p)$ の形状変化 二項分布 ── p による形状変化(n=10)


二項分布の形状の特徴:

$p$ の値 分布の形
$p = 0.5$ 左右対称
$p < 0.5$ 右に歪む(正の歪み)
$p > 0.5$ 左に歪む(負の歪み)
$n$ が大きい 正規分布に近づく(後述)

📘 専門的な補足:二項係数の計算

$\binom{n}{k}$ は「$n$ 個から $k$ 個を選ぶ組み合わせの数」です。

$\binom{n}{k} = \frac{n!}{k!(n-k)!}$

よく使う値:

  • $\binom{n}{0} = \binom{n}{n} = 1$
  • $\binom{n}{1} = \binom{n}{n-1} = n$
  • $\binom{5}{2} = \frac{5!}{2! \cdot 3!} = \frac{120}{2 \times 6} = 10$

パスカルの三角形を使うと手計算が楽になります:

  n=0:       1
            n=1:      1 1
            n=2:     1 2 1
            n=3:    1 3 3 1
            n=4:   1 4 6 4 1
            n=5:  1 5 10 10 5 1
          

各数は左上と右上の数の和。$n$ 行目が $\binom{n}{0}, \binom{n}{1}, \ldots, \binom{n}{n}$ に対応します。


3. ポアソン分布

関連教材(青の統計学)

3.1 ポアソン分布が登場する状況

次のような現象を考えます:

  • 1時間に交差点を通る事故の件数
  • 1ページの本に含まれる誤字の数
  • 1日にコールセンターに入る電話の回数
  • 1 $\text{cm}^2$ の金属板に含まれる傷の数

これらに共通する特徴:

  1. 事象がまれ(1回1回の発生確率は小さい)
  2. 事象の発生が互いに独立
  3. 平均発生率 $\lambda$ が一定
  4. 同時に2件以上発生する確率は無視できるほど小さい

このような状況での発生回数の分布がポアソン分布(Poisson Distribution)です。

3.2 確率質量関数

$\boxed{P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots}$

$\lambda > 0$ は単位時間(面積など)あたりの平均発生回数です。$e \approx 2.71828$ はネイピア数。

3.3 期待値と分散

$E[X] = \lambda, \quad V[X] = \lambda$

ポアソン分布の最大の特徴:期待値と分散が等しい(どちらも $\lambda$)。


[図2] ポアソン分布の形状($\lambda$ の違い) ポアソン分布 ── λ による形状変化


例) あるコールセンターに1時間あたり平均3件の問い合わせが来る($\lambda = 3$)。

  • $P(X = 0)$:1時間に問い合わせが0件の確率:

$P(X=0) = \frac{3^0 e^{-3}}{0!} = e^{-3} \approx 0.0498$

  • $P(X = 5)$:1時間に5件の確率:

$P(X=5) = \frac{3^5 e^{-3}}{5!} = \frac{243 \times 0.0498}{120} \approx 0.1008$


4. 二項分布とポアソン分布の関係

$n$ が大きく $p$ が小さい二項分布 $B(n, p)$ は、$\lambda = np$ のポアソン分布で近似できます。

$B(n, p) \xrightarrow{n \to \infty,\; p \to 0,\; np = \lambda} \text{Poisson}(\lambda)$

近似の目安: $n \geq 20$ かつ $p \leq 0.05$ のとき(または $np \leq 5$ 程度)

例) 製品の不良品率が 0.5%($p = 0.005$)。200個検査するとき、不良品が2個以下の確率。

$\lambda = np = 200 \times 0.005 = 1$ としてポアソン近似:

$P(X \leq 2) = P(X=0) + P(X=1) + P(X=2)$

$= \frac{1^0 e^{-1}}{0!} + \frac{1^1 e^{-1}}{1!} + \frac{1^2 e^{-1}}{2!}$

$= e^{-1}\left(1 + 1 + \frac{1}{2}\right) = e^{-1} \times 2.5 \approx 0.3679 \times 2.5 \approx 0.9197$

二項分布の正確な計算は $\binom{200}{0}$〜$\binom{200}{2}$ と非常に大きな数を扱いますが、ポアソン近似なら小さい数の計算で済みます。


📘 専門的な補足:ポアソン分布の導出

ポアソン分布は実は二項分布から自然に導出できます。 $n \to \infty$、$p \to 0$、$np = \lambda$(一定)の極限を取ると:

$\binom{n}{k} p^k (1-p)^{n-k} \xrightarrow{} \frac{\lambda^k e^{-\lambda}}{k!}$

この導出の鍵は $(1 - \lambda/n)^n \to e^{-\lambda}$($e$ の定義の一つ)という極限です。 「$e$」がポアソン分布の式に自然に現れるのはこのためです。


5. 演習問題

問題1(二項分布の確率計算)

ある医薬品の治癒率は70%とされています。この薬を5人の患者に投与するとき:

(1)ちょうど4人が治癒する確率を求めてください。 (2)3人以上が治癒する確率を求めてください。 (3)この試行の期待値と標準偏差を求めてください。

💡 解答・解説を見る

$X \sim B(5, 0.7)$

(1)$P(X = 4)$:

$P(X=4) = \binom{5}{4}(0.7)^4(0.3)^1 = 5 \times 0.2401 \times 0.3 = 5 \times 0.07203 = \mathbf{0.3601}$

(2)$P(X \geq 3) = P(X=3) + P(X=4) + P(X=5)$:

$P(X=3) = \binom{5}{3}(0.7)^3(0.3)^2 = 10 \times 0.343 \times 0.09 = \mathbf{0.3087}$

$P(X=5) = \binom{5}{5}(0.7)^5(0.3)^0 = 1 \times 0.16807 \times 1 = \mathbf{0.1681}$

$P(X \geq 3) = 0.3087 + 0.3601 + 0.1681 = \mathbf{0.8369}$

3人以上が治癒する確率は約84%です。

(3)期待値と標準偏差:

$E[X] = np = 5 \times 0.7 = \mathbf{3.5 \text{ 人}}$

$V[X] = np(1-p) = 5 \times 0.7 \times 0.3 = 1.05$

$\sigma = \sqrt{1.05} \approx \mathbf{1.025 \text{ 人}}$


問題2(ポアソン分布)

ある道路で1日あたりに発生する交通事故の件数は、平均2件のポアソン分布に従うとします。

(1)ある日、事故が1件も発生しない確率を求めてください。 (2)ある日、事故が3件以上発生する確率を求めてください。(余事象を使ってください) (3)この分布の期待値と分散を答えてください。

$e^{-2} \approx 0.1353$ を使ってよい。

💡 解答・解説を見る

$X \sim \text{Poisson}(2)$

(1)$P(X = 0)$:

$P(X=0) = \frac{2^0 e^{-2}}{0!} = e^{-2} \approx \mathbf{0.1353}$

1日中事故がない確率は約13.5%です。

(2)$P(X \geq 3)$(余事象を使う):

$P(X \geq 3) = 1 - P(X \leq 2) = 1 - [P(X=0) + P(X=1) + P(X=2)]$

$P(X=1) = \frac{2^1 e^{-2}}{1!} = 2e^{-2} \approx 0.2707$

$P(X=2) = \frac{2^2 e^{-2}}{2!} = \frac{4e^{-2}}{2} = 2e^{-2} \approx 0.2707$

$P(X \geq 3) = 1 - (0.1353 + 0.2707 + 0.2707) = 1 - 0.6767 \approx \mathbf{0.3233}$

3件以上発生する確率は約32.3%です。

(3)

$E[X] = \lambda = \mathbf{2 \text{ 件}}, \quad V[X] = \lambda = \mathbf{2}$

ポアソン分布では期待値=分散=$\lambda$ が成り立ちます。


問題3(二項分布のポアソン近似)

ある大規模な試験で、採点ミスが発生する確率は1問につき0.2%($p = 0.002$)です。ある受験者の答案は400問あります。

(1)ポアソン近似を使って、採点ミスが1問も発生しない確率を求めてください。 (2)採点ミスが2問以上発生する確率を求めてください。

$e^{-0.8} \approx 0.4493$ を使ってよい。

💡 解答・解説を見る

$n = 400$、$p = 0.002$ は「$n$ 大・$p$ 小」の条件を満たすのでポアソン近似が適用できます。

$\lambda = np = 400 \times 0.002 = 0.8$

(1)$P(X = 0)$:

$P(X=0) = \frac{0.8^0 e^{-0.8}}{0!} = e^{-0.8} \approx \mathbf{0.4493}$

採点ミスが1問もない確率は約45%です。

(2)$P(X \geq 2)$(余事象):

$P(X=1) = \frac{0.8^1 e^{-0.8}}{1!} = 0.8 \times 0.4493 \approx 0.3594$

$P(X \geq 2) = 1 - P(X=0) - P(X=1) = 1 - 0.4493 - 0.3594 = \mathbf{0.1913}$

2問以上の採点ミスが起きる確率は約19%です。

確認: 二項分布の正確な計算では $\binom{400}{0}(0.002)^0(0.998)^{400}$ などを計算する必要があり非常に煩雑ですが、ポアソン近似なら指数関数の計算だけで済みます。


まとめ

二項分布 $B(n, p)$ ポアソン分布 $\text{Pois}(\lambda)$
適用場面 $n$ 回のベルヌーイ試行の成功回数 まれな事象の発生回数
PMF $\binom{n}{k}p^k(1-p)^{n-k}$ $\lambda^k e^{-\lambda}/k!$
期待値 $np$ $\lambda$
分散 $np(1-p)$ $\lambda$
パラメータ $n$(試行回数), $p$(成功確率) $\lambda$(平均発生率)
関係 $n$ 大・$p$ 小のとき $\lambda=np$ でポアソン近似可

この章のキーメッセージ: 現実の現象を「どの分布で近似できるか」を見極めることが、確率計算の第一歩です。 「成功か失敗かを $n$ 回繰り返す」なら二項分布、「まれな事象の発生回数」ならポアソン分布——このパターン認識が実践力の核心です。


次の章へ

離散型の2つの分布を学びました。次は統計学で最も重要な連続型分布——正規分布——を徹底的に学びます。

次: 連続型確率分布:正規分布と標準化