青の統計学-DS Playground-

条件付き確率と独立性

Stage 2 — 第2章| 統計学基礎カリキュラム 推定学習時間:45〜55分 | 難易度:★★☆☆☆


この章で学ぶこと

前章では「何の確率か」を定義する言語を学びました。 この章では「新しい情報が入ったとき、確率はどう変わるか」を扱います。

データを見て(情報を得て)、それまでの考えを更新する——この考え方が条件付き確率の基本です。

この章を終えると、こんなことができるようになります:

  • 条件付き確率 $P(B \mid A)$ を定義から計算できる
  • 乗法定理を使って積事象の確率を求められる
  • 独立な事象と従属な事象を判定できる
  • 「独立」の直感的な意味を説明できる
  • 全確率の法則を使って複雑な確率問題を分解できる

1. 情報が確率を変える

次の状況を考えてください。

箱の中に赤玉4個、白玉6個の計10個が入っています。 1個取り出したとき、それが赤玉である確率は?

$P(\text{赤}) = \frac{4}{10} = 0.4$

では、「取り出した玉はまだ見せていないが、それが赤か白かを知っている友人が『その玉は大きい』と教えてくれた」としましょう。大きい玉は赤3個・白1個だとわかっています。

今、その玉が赤玉である確率は?

$P(\text{赤} \mid \text{大きい}) = \frac{3}{4} = 0.75$

「大きい」という情報が入ることで、確率が 0.4 から 0.75 に変わりました。 これが条件付き確率の本質です。


2. 条件付き確率の定義

関連教材(青の統計学)

事象 $A$ が起きたという条件のもとで、事象 $B$ が起きる確率を条件付き確率と呼び、$P(B \mid A)$ と書きます(「$A$ が与えられたときの $B$ の確率」と読む)。

$\boxed{P(B \mid A) = \frac{P(A \cap B)}{P(A)}} \quad (P(A) > 0)$

直感的な理解: $A$ が起きたとわかったとき、標本空間は $\Omega$ 全体から $A$ に絞り込まれます。 その中で $B$ も起きている割合が $P(B \mid A)$ です。


[図1] 条件付き確率のイメージ 条件付き確率のベン図


例) サイコロを1回振る。

  • 事象 $A$:「偶数が出る」= $\{2, 4, 6\}$
  • 事象 $B$:「4以上が出る」= $\{4, 5, 6\}$
  • $A \cap B = \{4, 6\}$

$P(B \mid A) = \frac{P(A \cap B)}{P(A)} = \frac{2/6}{3/6} = \frac{2}{3}$

「偶数が出た」とわかった状態で、それが4以上である確率は 2/3 です。 (偶数 $\{2,4,6\}$ の中で4以上は $\{4,6\}$ の2つ、という直感と一致します)


3. 乗法定理

条件付き確率の定義式を変形すると、積事象の確率を求める公式が得られます。

$P(A \cap B) = P(A) \cdot P(B \mid A)$

同様に:

$P(A \cap B) = P(B) \cdot P(A \mid B)$

これを乗法定理(multiplication rule)と呼びます。

例) トランプ52枚から2枚を続けて引くとき(もとに戻さない)、「1枚目がエース、2枚目もエース」である確率は?

  • $P(\text{1枚目エース}) = \frac{4}{52}$
  • $P(\text{2枚目エース} \mid \text{1枚目エース}) = \frac{3}{51}$(残り51枚中エースは3枚)

$P(\text{両方エース}) = \frac{4}{52} \times \frac{3}{51} = \frac{12}{2652} = \frac{1}{221} \approx 0.0045$


4. 事象の独立性

関連教材(青の統計学)

4.1 独立の定義

事象 $A$ が起きても起きなくても、事象 $B$ の確率が変わらないとき、$A$ と $B$ は独立(independent)であるといいます。

$\text{独立の定義:} \quad P(B \mid A) = P(B)$

これを乗法定理に代入すると、独立のときの積事象の公式が得られます:

$\boxed{P(A \cap B) = P(A) \cdot P(B)} \quad \text{(独立のとき)}$

逆に言うと、$P(A \cap B) = P(A) \cdot P(B)$ が成り立てば $A$ と $B$ は独立、成り立たなければ従属(dependent)です。

4.2 独立の直感

独立な例: コインを2回投げる。1回目が表であることは、2回目の結果に影響しない。

$P(\text{2回目が表} \mid \text{1回目が表}) = P(\text{2回目が表}) = \frac{1}{2}$

従属な例: 箱から玉を取り出す(もとに戻さない)。1回目に何を取り出したかは、2回目の確率を変える。

重要な注意:「排反」と「独立」は全く別の概念

排反($A \cap B = \emptyset$) 独立($P(A \cap B) = P(A) \cdot P(B)$)
意味 同時には起きない 一方の結果が他方に影響しない
コインで「表かつ裏」 2回のコイン投げの各結果
関係 排反なら($P(A), P(B) > 0$ のとき)従属 独立なら排反ではない

排反事象は「同時に起こらない」ので、$A$ が起きれば $B$ は絶対に起きない——これは $B$ の確率が $A$ の情報で変わるということなので、むしろ強く従属しています。


📘 専門的な補足:3事象以上の独立

3つの事象 $A, B, C$ が独立であるためには、次のすべてが成り立つ必要があります:

$P(A \cap B) = P(A) \cdot P(B)$ $P(A \cap C) = P(A) \cdot P(C)$ $P(B \cap C) = P(B) \cdot P(C)$ $P(A \cap B \cap C) = P(A) \cdot P(B) \cdot P(C)$

各ペアが独立でも、3つ全体の積公式が成り立たないことがあります(対ごと独立だが相互独立でないケース)。実用上は「各試行が互いに影響しない状況(コインを繰り返し投げる、独立なサンプルを引くなど)」を独立とみなします。


5. 全確率の法則

複雑な事象の確率を、いくつかのシナリオに分解して計算する強力な道具が全確率の法則です。

5.1 分割(partition)

事象 $B_1, B_2, \ldots, B_k$ が標本空間の分割であるとは:

  • どの2つも排反:$B_i \cap B_j = \emptyset$($i \neq j$)
  • 全体を覆う:$B_1 \cup B_2 \cup \cdots \cup B_k = \Omega$

5.2 全確率の法則

$B_1, B_2, \ldots, B_k$ が標本空間の分割であるとき、任意の事象 $A$ に対して:

$\boxed{P(A) = \sum_{i=1}^{k} P(A \mid B_i) \cdot P(B_i)}$

直感: 「$B_1$ が起きたとき $A$ が起きる確率」×「$B_1$ が起きる確率」を全シナリオ分足す。


例) ある工場に3台の機械A・B・Cがあります。

機械 全生産に占める割合 不良品率
A 50% 2%
B 30% 5%
C 20% 3%

ランダムに1個取り出したとき、それが不良品である確率は?

$P(\text{不良}) = P(\text{不良} \mid A) \cdot P(A) + P(\text{不良} \mid B) \cdot P(B) + P(\text{不良} \mid C) \cdot P(C)$

$= 0.02 \times 0.5 + 0.05 \times 0.3 + 0.03 \times 0.2$

$= 0.010 + 0.015 + 0.006 = \mathbf{0.031}$

全体の不良品率は3.1%です。


[図2] 全確率の法則のツリー図 確率ツリー(全確率の法則)


📘 専門的な補足:確率ツリーの読み方

全確率の法則は確率ツリー(tree diagram)として視覚化すると理解しやすくなります。

  • 各枝に確率を書く
  • 根(root)から葉(leaf)に至る経路の確率は、経路上の確率をすべて掛ける(乗法定理)
  • 特定の葉(事象 $A$)に到達する全経路の確率を足す(全確率の法則)

これは次章のベイズの定理の計算でも繰り返し使います。


6. 演習問題

問題1(条件付き確率)

ある集団100人について、次のデータがあります。

運動習慣あり 運動習慣なし 合計
健康診断:異常なし 45 30 75
健康診断:要注意以上 5 20 25
合計 50 50 100

(1)ランダムに1人選んだとき、その人に運動習慣がある確率を求めてください。 (2)健康診断で「要注意以上」だった人が運動習慣を持っている確率を求めてください。 (3)運動習慣がある人が健康診断で「要注意以上」になる確率を求めてください。

💡 解答・解説を見る

(1)運動習慣がある確率:

$P(\text{運動あり}) = \frac{50}{100} = 0.5$

(2)「要注意以上」の条件のもと、運動習慣がある確率:

$P(\text{運動あり} \mid \text{要注意以上}) = \frac{P(\text{運動あり} \cap \text{要注意以上})}{P(\text{要注意以上})} = \frac{5/100}{25/100} = \frac{5}{25} = 0.2$

(3)運動習慣がある条件のもと、「要注意以上」になる確率:

$P(\text{要注意以上} \mid \text{運動あり}) = \frac{P(\text{運動あり} \cap \text{要注意以上})}{P(\text{運動あり})} = \frac{5/100}{50/100} = \frac{5}{50} = 0.1$

考察:

  • 運動習慣のない人の「要注意以上」率:$20/50 = 0.4$(40%)
  • 運動習慣のある人の「要注意以上」率:$5/50 = 0.1$(10%)

条件付き確率が変わっているので、運動習慣と健康診断結果は従属です。ただし、これは相関であり、因果(運動が健康を改善する)とは別です(Stage 1 第3章参照)。


問題2(独立性の判定)

サイコロを1回振ります。以下の2つの事象の組について、独立かどうかを判定してください。

  • 事象 $A$:「奇数が出る」= $\{1, 3, 5\}$
  • 事象 $B$:「3以下が出る」= $\{1, 2, 3\}$
💡 解答・解説を見る

各確率を計算します:

$P(A) = \frac{3}{6} = \frac{1}{2}$

$P(B) = \frac{3}{6} = \frac{1}{2}$

$A \cap B = \{1, 3\} \quad \Rightarrow \quad P(A \cap B) = \frac{2}{6} = \frac{1}{3}$

独立であれば $P(A \cap B) = P(A) \cdot P(B)$ が成り立つはずです:

$P(A) \cdot P(B) = \frac{1}{2} \times \frac{1}{2} = \frac{1}{4}$

$P(A \cap B) = \frac{1}{3} \neq \frac{1}{4}$

$A$ と $B$ は従属です。

確認として条件付き確率で見ると:

$P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{1/3}{1/2} = \frac{2}{3} \neq P(A) = \frac{1}{2}$

「3以下が出た」という情報が、「奇数か否か」の確率を変えています(3以下 $\{1,2,3\}$ のうち奇数は $\{1,3\}$ の2/3)。


問題3(全確率の法則)

ある企業の社員のうち、文系出身が60%、理系出身が40%です。 プロジェクトXへの参加希望者の割合は、文系社員で20%、理系社員で45%です。

(1)社員からランダムに1人を選んだとき、その人がプロジェクトXへの参加希望者である確率を求めてください。 (2)参加希望者の中で文系出身者の割合を求めてください。(次章の予習)

💡 解答・解説を見る

(1)全確率の法則を使います:

  • 事象 $F$:文系出身、事象 $S$:理系出身($F$ と $S$ は分割)
  • 事象 $X$:プロジェクトX参加希望

$P(X) = P(X \mid F) \cdot P(F) + P(X \mid S) \cdot P(S)$

$= 0.20 \times 0.60 + 0.45 \times 0.40$

$= 0.12 + 0.18 = \mathbf{0.30}$

全社員の30%がプロジェクトXへの参加希望者です。

(2)参加希望者の中で文系出身者の割合:

これは $P(F \mid X)$ を求める問いです。

$P(F \mid X) = \frac{P(X \mid F) \cdot P(F)}{P(X)} = \frac{0.12}{0.30} = 0.4$

参加希望者の40%が文系出身です。(全社員の文系比率60%より低い——理系の希望率が高いためです)

この計算の構造は「全確率の法則 → 条件付き確率(逆向き)」という流れで、ベイズの定理そのものです。次章で正式に扱います。


まとめ

概念 定義・公式
条件付き確率 $P(B \mid A) = P(A \cap B) / P(A)$
乗法定理 $P(A \cap B) = P(A) \cdot P(B \mid A)$
独立 $P(A \cap B) = P(A) \cdot P(B)$(同値:$P(B \mid A) = P(B)$)
排反 vs 独立 排反 ≠ 独立。排反は「同時に起きない」、独立は「互いに影響しない」
全確率の法則 $P(A) = \sum_i P(A \mid B_i) \cdot P(B_i)$($B_i$ が分割のとき)

この章のキーメッセージ: 「情報を得たあとの確率」は「情報を得る前の確率」と違います。 条件付き確率はその変化を定量化する道具です。 そして「独立」とは「情報を得ても確率が変わらない」という特別な状態です。


次の章へ

「$A$ が起きたことがわかったとき、$B$ の確率がどうなるか」を学びました。 逆に「$B$ が起きたことがわかったとき、$A$ の原因はどれか」を計算するのが次章のテーマです。

次: ベイズの定理 — 情報で信念を更新する