スパムフィルタリングのベイズ計算 - 問題演習問題1

スパムフィルタリングのベイズ計算レベル1

メールのスパムフィルタにおいて、「割引」という単語がスパムメールに出現する確率は0.8、正常メールに出現する確率は0.1である。全メールの20%がスパムメールとして分類されている。「割引」という単語を含むメールがスパムである確率はいくらか。小数第3位まで求めよ。

解説

解答と解説を表示

現代のメールシステムでのスパムフィルタリングは、ベイズの定理を基盤とした分類手法です。この問題では、特定の単語の出現による事後確率を計算します。

問題設定の整理

Step 1: ベイズの定理の適用

$P(\text{スパム}|\text{「割引」}) = \frac{P(\text{「割引」}|\text{スパム}) \times P(\text{スパム})}{P(\text{「割引」})}$

Step 2: 全確率の法則による分母の計算

$P(\text{「割引」}) = P(\text{「割引」}|\text{スパム}) \times P(\text{スパム}) + P(\text{「割引」}|\text{正常}) \times P(\text{正常})$

$P(\text{「割引」}) = 0.8 \times 0.2 + 0.1 \times 0.8$

$P(\text{「割引」}) = 0.16 + 0.08 = 0.24$

Step 3: 事後確率の計算

$P(\text{スパム}|\text{「割引」}) = \frac{0.8 \times 0.2}{0.24} = \frac{0.16}{0.24} = \frac{2}{3} ≈ 0.667$

小数第3位まで：0.667

「割引」という単語を含むメールがスパムである確率は約66.7%です。これは：

実際の数値で確認

1,000通のメールを分析した場合：

実際のスパムフィルタでは複数の単語を組み合わせます：

$P(\text{スパム}|w_1, w_2, \ldots, w_n) \propto P(\text{スパム}) \prod_{i=1}^n P(w_i|\text{スパム})$

ベイズ統計学