ベイズの定理：情報で信念を更新する

Stage 2 — 第3章| 統計学基礎カリキュラム推定学習時間：45〜55分 | 難易度：★★★☆☆

この章で学ぶこと

前章の最後で、「参加希望者の中で文系の割合」を逆向きに計算しました。あれがまさにベイズの定理の使い方です。

「$B$ が起きた。では $A$ が原因である確率は？」——原因を結果から逆算する。この考え方は、統計学・機械学習・意思決定など幅広い分野で使われています。

この章を終えると、こんなことができるようになります：

ベイズの定理の式を導出し、使いこなせる
事前確率・尤度・事後確率の意味を説明できる
医療検査・スパムフィルタ・品質管理などの実問題に応用できる
「偽陽性」の罠を確率で説明できる

1. 逆向きの問い

ここで改めて「逆向きの問い」を整理します。

順方向（前章まで）：

機械Aが生産した → 不良品である確率は？ → $P(\text{不良} \mid A)$

逆方向（今章）：

不良品だった → 機械Aが作った確率は？ → $P(A \mid \text{不良})$

前章の全確率の法則で $P(\text{不良})$ を求め、条件付き確率の定義に代入すれば逆方向の確率を計算できます。この組み合わせがベイズの定理です。

2. ベイズの定理の導出

関連教材（青の統計学）

ベータ分布（動画）

HPD区間（動画）

ベータ分布についてわかりやすく解説｜二項分布との関わり（記事）

乗法定理から出発します：

$P(A \cap B) = P(A) \cdot P(B \mid A)$ $P(A \cap B) = P(B) \cdot P(A \mid B)$

2式の右辺を等置して $P(A \mid B)$ について解くと：

$\boxed{P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}}$

分母 $P(B)$ に全確率の法則を適用した形（$A$ と $A^c$ で分割した場合）：

$P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B \mid A) \cdot P(A) + P(B \mid A^c) \cdot P(A^c)}$

3. 各項の意味

ベイズの定理の各項には名前があります。

$\underbrace{P(A \mid B)}_{\text{事後確率}} = \frac{\overbrace{P(B \mid A)}^{\text{尤度}} \cdot \overbrace{P(A)}^{\text{事前確率}}}{\underbrace{P(B)}_{\text{周辺確率（正規化定数）}}}$

用語	意味
事前確率$P(A)$	$B$ を観測する前の $A$ への信念
尤度（ゆうど）$P(B \mid A)$	$A$ が真であるとき、$B$ が観測される確率
事後確率$P(A \mid B)$	$B$ を観測した後の $A$ への信念（更新された確率）
周辺確率$P(B)$	$B$ が起きる全体の確率（正規化のための定数）

ベイズ更新の本質： $\text{事後確率} \propto \text{尤度} \times \text{事前確率}$

「$B$ という証拠を得たとき、$A$ が起きている確率を、証拠の強さ（尤度）に比例して更新する」——これがベイズ的思考の核心です。

4. 具体例①：品質管理（前章の続き）

前章の工場問題を使います。

機械	生産割合	不良品率
A	50%	2%
B	30%	5%
C	20%	3%

全確率の法則で $P(\text{不良}) = 0.031$ を求めました。

では「取り出した製品が不良品だった。それを作ったのが機械Aである確率は？」

$P(A \mid \text{不良}) = \frac{P(\text{不良} \mid A) \cdot P(A)}{P(\text{不良})}$

$= \frac{0.02 \times 0.50}{0.031} = \frac{0.010}{0.031} \approx 0.323$

同様に機械B・Cについても：

$P(B \mid \text{不良}) = \frac{0.05 \times 0.30}{0.031} = \frac{0.015}{0.031} \approx 0.484$

$P(C \mid \text{不良}) = \frac{0.03 \times 0.20}{0.031} = \frac{0.006}{0.031} \approx 0.194$

確認： $0.323 + 0.484 + 0.194 = 1.001 \approx 1$（丸め誤差）✓

不良品が見つかったとき、最も疑わしいのは機械B（48.4%）です。機械Bは不良品率が最も高く（5%）、生産量も多い（30%）ため、原因として最も可能性が高いことがわかります。

5. 具体例②：医療検査の落とし穴

ベイズの定理が最も重要な応用の一つが検査の解釈です。

設定：

ある病気の有病率（事前確率）：人口の1%（$P(\text{病気}) = 0.01$）
検査の感度（真陽性率）：病気のある人が陽性になる確率 = 95%（$P(\text{陽性} \mid \text{病気}) = 0.95$）
検査の特異度：健康な人が陰性になる確率 = 90%（$P(\text{陰性} \mid \text{健康}) = 0.90$） → 偽陽性率：$P(\text{陽性} \mid \text{健康}) = 0.10$

問：検査で陽性だったとき、本当に病気である確率は？

多くの人は「感度95%だから、陽性なら95%の確率で病気のはず」と直感します。ベイズの定理で計算してみましょう。

$P(\text{病気} \mid \text{陽性}) = \frac{P(\text{陽性} \mid \text{病気}) \cdot P(\text{病気})}{P(\text{陽性})}$

まず $P(\text{陽性})$ を全確率の法則で：

$P(\text{陽性}) = P(\text{陽性} \mid \text{病気}) \cdot P(\text{病気}) + P(\text{陽性} \mid \text{健康}) \cdot P(\text{健康})$

$= 0.95 \times 0.01 + 0.10 \times 0.99 = 0.0095 + 0.0990 = 0.1085$

$P(\text{病気} \mid \text{陽性}) = \frac{0.95 \times 0.01}{0.1085} = \frac{0.0095}{0.1085} \approx \mathbf{0.0876}$

陽性でも、実際に病気である確率はわずか約8.8%です。

[図1] 1000人で数えるアプローチ（自然頻度）

なぜ直感と大きくズレるか？

1000人で考えると：

	病気（10人）	健康（990人）
陽性	9.5人（真陽性）	99人（偽陽性）
陰性	0.5人（偽陰性）	891人（真陰性）

陽性になる人は $9.5 + 99 = 108.5$ 人。そのうち本当に病気なのは $9.5$ 人 → $9.5 / 108.5 \approx 8.8\%$

「偽陽性の絶対数」が「真陽性の絶対数」を上回るのは、有病率が低いからです。有病率が低いほど、陽性の大部分が偽陽性になります。これを基準率の無視（base rate neglect）といい、人間の直感的な確率判断が最もミスしやすいポイントです。

📘 専門的な補足：感度・特異度・PPV・NPV

検査の性能を評価する4つの指標：

指標計算式意味

感度（Sensitivity） $P(\text{陽性} \mid \text{病気})$ 病気の人を正しく陽性と判定する能力

特異度（Specificity） $P(\text{陰性} \mid \text{健康})$ 健康な人を正しく陰性と判定する能力

陽性的中率（PPV） $P(\text{病気} \mid \text{陽性})$ 陽性と判定されたとき実際に病気の確率

陰性的中率（NPV） $P(\text{健康} \mid \text{陰性})$ 陰性と判定されたとき実際に健康の確率

感度・特異度は検査固有の性質ですが、PPV・NPVは有病率（事前確率）によって変わります。これがまさにベイズの定理の応用です。スクリーニング検査で陽性になっても「精密検査が必要」とするのは、PPVが低いため。逆に集団的発症リスクが高い状況では同じ検査でも PPV が上がります。

6. ベイズ更新の連続適用

関連教材（青の統計学）

MCMC法（動画）

母比率の推定と検定（動画）

ベイズ推定をわかりやすく解説｜事後分布から推定量を導く方法（記事）

ベイズの定理の強力な点は、情報が追加されるたびに確率を更新し続けられることです。

$\text{事後確率}_1 \xrightarrow{\text{新情報}} \text{事後確率}_2 \xrightarrow{\text{新情報}} \text{事後確率}_3 \xrightarrow{\cdots}$

1回目の事後確率が、次の更新における事前確率になります。

例）公平なコイン（$P(\text{表}) = 0.5$）かどうかを確かめたい。コインを投げるたびに、「公平なコイン」の信念を更新する。

投げた結果	事前確率（公平）	事後確率（公平）
開始前	0.50	—
1回目：表	0.50	0.50（変わらず）
2回目：表	0.50	0.50（変わらず）
5連続表	—	下がり始める
10連続表	—	かなり低くなる

1〜2回では大きく変わりませんが、証拠が積み重なるにつれて事後確率は変化します。これが「データから学ぶ」プロセスの数学的な骨格です。

7. 演習問題

問題1（基本的なベイズ計算）

袋X（赤3個・白2個）と袋Y（赤1個・白4個）があります。コインを投げて表なら袋Xから、裏なら袋Yから1個取り出します。

取り出した玉が赤だったとき、それが袋Xから取り出された確率を求めてください。

💡 解答・解説を見る

事前確率と尤度の整理：

$P(X) = P(Y) = 1/2$（コインは公平）
$P(\text{赤} \mid X) = 3/5$
$P(\text{赤} \mid Y) = 1/5$

全確率の法則で $P(\text{赤})$ を計算：

$P(\text{赤}) = P(\text{赤} \mid X) \cdot P(X) + P(\text{赤} \mid Y) \cdot P(Y)$

$= \frac{3}{5} \times \frac{1}{2} + \frac{1}{5} \times \frac{1}{2} = \frac{3}{10} + \frac{1}{10} = \frac{4}{10} = \frac{2}{5}$

ベイズの定理で $P(X \mid \text{赤})$ を計算：

$P(X \mid \text{赤}) = \frac{P(\text{赤} \mid X) \cdot P(X)}{P(\text{赤})} = \frac{\frac{3}{5} \times \frac{1}{2}}{\frac{2}{5}} = \frac{\frac{3}{10}}{\frac{2}{5}} = \frac{3}{10} \times \frac{5}{2} = \frac{3}{4}$

赤玉が出たとき、それが袋Xから取り出された確率は75%です。

袋Xのほうが赤玉の比率が高いため、赤玉という情報が「袋X由来」への信念を50%から75%に更新したことがわかります。

問題2（医療検査の応用）

HIV検査について以下の情報があります：

対象集団の HIV 感染率：0.5%
検査の感度：99%（感染者が陽性になる確率）
検査の特異度：99%（非感染者が陰性になる確率）

（1）検査で陽性になった人が実際に HIV に感染している確率を求めてください。（2）（1）の結果が直感より低い（または高い）場合、その理由を説明してください。

💡 解答・解説を見る

（1）各値の整理：

$P(\text{感染}) = 0.005$、$P(\text{非感染}) = 0.995$
$P(\text{陽性} \mid \text{感染}) = 0.99$
$P(\text{陽性} \mid \text{非感染}) = 1 - 0.99 = 0.01$（偽陽性率）

全確率の法則：

$P(\text{陽性}) = 0.99 \times 0.005 + 0.01 \times 0.995 = 0.00495 + 0.00995 = 0.01490$

ベイズの定理：

$P(\text{感染} \mid \text{陽性}) = \frac{0.99 \times 0.005}{0.01490} = \frac{0.00495}{0.01490} \approx \mathbf{0.332}$

陽性でも、実際に感染している確率は約33.2%です。

（2）直感より低い理由：

感度・特異度ともに99%という非常に高精度の検査ですが、PPVは33%にとどまります。感染率（事前確率）が0.5%と非常に低いため、1000人中に真の感染者は5人しかいません。

真陽性：$5 \times 0.99 \approx 5$ 人
偽陽性：$995 \times 0.01 \approx 10$ 人

陽性の約2/3は偽陽性です。これが「基準率の無視」の典型例です。なお、対象集団をリスクの高い集団（感染率が高い集団）に絞れば、同じ検査でも PPV は大幅に上がります。スクリーニング検査が「精密検査へのトリアージ」として設計される理由がここにあります。

問題3（ベイズ更新）

ある工場の製品は、正常なロット（良品率99%）か、異常なロット（良品率80%）のどちらかです。過去のデータから、正常なロットの確率は90%です。

このロットから製品を1個取り出したところ、不良品でした。不良品という情報を得た後、このロットが正常である確率を求めてください。

💡 解答・解説を見る

事前確率と尤度：

事前確率：$P(\text{正常}) = 0.90$、$P(\text{異常}) = 0.10$
$P(\text{不良} \mid \text{正常}) = 1 - 0.99 = 0.01$
$P(\text{不良} \mid \text{異常}) = 1 - 0.80 = 0.20$

全確率の法則：

$P(\text{不良}) = 0.01 \times 0.90 + 0.20 \times 0.10 = 0.009 + 0.020 = 0.029$

ベイズの定理：

$P(\text{正常} \mid \text{不良}) = \frac{P(\text{不良} \mid \text{正常}) \cdot P(\text{正常})}{P(\text{不良})} = \frac{0.01 \times 0.90}{0.029} = \frac{0.009}{0.029} \approx \mathbf{0.310}$

更新の比較：

	事前確率	事後確率（不良品1個観測後）
正常なロット	90%	31.0%
異常なロット	10%	69.0%

1個の不良品という証拠だけで、「正常ロット」の確率が90%から31%に急落しました。異常ロットでは不良品率が20%（正常の20倍）と高く、尤度比が大きいため更新が劇的になります。

ここから2個目を検査して再度不良品だった場合、今度は $P(\text{正常}) = 0.310$ を事前確率として再計算——これがベイズ更新の連続適用です。

まとめ

概念	内容
ベイズの定理	$P(A \mid B) = P(B \mid A) \cdot P(A) / P(B)$
事前確率	観測前の信念
尤度	仮説が正しいときに観測データが得られる確率
事後確率	観測後の更新された信念
基準率の無視	事前確率（有病率・発生率）を無視すると PPV を過大評価する
ベイズ更新	事後確率を次の事前確率として繰り返し適用できる

この章のキーメッセージ： 確率は固定した値ではなく、情報とともに更新される信念です。「陽性だから病気」「不良品が出たから異常ロット」——直感的な飛躍を、ベイズの定理は数値で冷静に評価します。データから学ぶすべての統計的手法の根底に、この「観測による更新」の考え方があります。

Stage 2 を終えて

確率の基礎（事象・加法定理）→ 条件付き確率・独立性 → ベイズの定理と、確率の言語を習得しました。次のステージでは、この確率の言語を使って「確率変数」と「確率分布」を定式化します。

→ Stage 3へ：確率分布 — ランダムな量を関数で表す

指標	計算式	意味
感度（Sensitivity）	$P(\text{陽性} \mid \text{病気})$	病気の人を正しく陽性と判定する能力
特異度（Specificity）	$P(\text{陰性} \mid \text{健康})$	健康な人を正しく陰性と判定する能力
陽性的中率（PPV）	$P(\text{病気} \mid \text{陽性})$	陽性と判定されたとき実際に病気の確率
陰性的中率（NPV）	$P(\text{健康} \mid \text{陰性})$	陰性と判定されたとき実際に健康の確率