統計学編

統計3級〜2級に関する基本的な計算問題

ベイズの定理: スパムフィルタリングの精度 レベル1

あるメールフィルタリングシステムでスパムメールの判定を行います。過去のデータから、全メールのうちスパム(事前確率)は P(S) = 0.40 でした。このシステムはスパムメールを「スパム」と正しく判定する確率(適合率)は P(C|S) = 0.90 で、通常メールを誤って「スパム」と判定する確率(偽陽性率)は $P(C|S^c) = 0.05$ です。あるメールがシステムによって「スパム」と判定された場合、そのメールが実際にスパムである確率(事後確率 P(S|C))をベイズの定理を用いて計算してください。

解説
解答と解説を表示
<h4>ベイズの定理とは?</h4> <p>ベイズの定理は、ある事象が観測されたという<strong>新しい証拠</strong>を得たときに、別の事象に関する確率(<strong>事前確率</strong>)をどのように更新すべきか(<strong>事後確率</strong>)を示す、確率論の基本定理です。</p> <p>簡単に言えば、「<strong>結果(観測された証拠)を知った後での原因の確率</strong>」を計算する方法を提供します。</p><h4>ベイズの定理の式</h4> <div class="formula"> $P(A|B) = \frac{P(B|A) P(A)}{P(B)}$ </div> <p>ここで:</p> <ul> <li>\(P(A|B)\): 事象 B が観測されたという条件下での事象 A の<strong>事後確率</strong> (Posterior Probability)</li> <li>\(P(B|A)\): 事象 A が起きたという条件下で事象 B が起きる<strong>尤度</strong> (Likelihood)</li> <li>\(P(A)\): 事象 A の<strong>事前確率</strong> (Prior Probability)(証拠を得る前の初期確率)</li> <li>\(P(B)\): 事象 B の全確率(<strong>周辺尤度</strong>, Marginal Likelihood)</li> </ul> <p>分母の \(P(B)\) は、全確率の定理により次のように展開できます:</p> <div class="formula"> $P(B) = P(B|A)P(A) + P(B|A^c)P(A^c)$ </div> <p>したがって、ベイズの定理の完全な形式は:</p> <div class="formula"> $P(A|B) = \frac{P(B|A) P(A)}{P(B|A)P(A) + P(B|A^c)P(A^c)}$ </div><h4>スパムフィルタリングとベイズの定理</h4> <p>スパムフィルタリングは、ベイズの定理の最も実用的な応用例の一つです。新しいメールが届いたとき、そのメールに含まれる単語や特徴を証拠として、そのメールがスパムである確率を計算します。</p> <p>今回の問題では、システムの判定結果という「証拠」に基づいて、メールが実際にスパムである確率を更新します。</p><h4>計算ステップ</h4> <p>問題で与えられた情報を整理します:</p> <ul> <li>S: メールがスパムである事象</li> <li>C: システムがメールを「スパム」と判定する事象</li> <li>\(P(S)\): スパムメールの事前確率 = 0.40</li> <li>\(P(C|S)\): スパムを正しく「スパム」と判定する確率 = 0.90</li> <li>\(P(C|S^c)\): 通常メールを誤って「スパム」と判定する確率 = 0.05</li> </ul> <p>求めるのは、システムが「スパム」と判定したメールが実際にスパムである確率 \(P(S|C)\) です。</p><p>1. <strong>補完的な確率を計算:</strong></p> <ul> <li>通常メールの確率: \(P(S^c) = 1 - P(S) = 1 - 0.40 = 0.60\)</li> </ul><p>2. <strong>分母 P(C) の計算 (全確率の定理):</strong></p> <div class="formula"> $P(C) = P(C|S)P(S) + P(C|S^c)P(S^c) = (0.90 \times 0.40) + (0.05 \times 0.60) = 0.36 + 0.03 = 0.39$ </div> <p>これは、すべてのメールのうち、システムが「スパム」と判定するメールの割合が約39%であることを示しています。</p><p>3. <strong>事後確率 P(S|C) の計算 (ベイズの定理):</strong></p> <div class="formula"> $P(S|C) = \frac{P(C|S) P(S)}{P(C)} = \frac{0.90 \times 0.40}{0.39} = \frac{0.36}{0.39} \approx 0.923$ </div> <p>したがって、システムが「スパム」と判定したメールが実際にスパムである確率は約 <strong>92.3%</strong> です。</p><h4>結果の解釈</h4> <p>システムによる「スパム」判定の精度は非常に高く(約92.3%)、誤検出の割合は約7.7%です。これは、このフィルタリングシステムが比較的信頼できることを示していますが、完璧ではなく、通常のメールが誤ってスパムとして扱われる可能性(偽陽性)も残っています。</p> <p>この結果から、システムの設定を調整して偽陽性の割合を下げるか、あるいはより高い精度を追求するかという判断ができます。</p><div class="key-point"> <div class="key-point-title">重要ポイント:ベイズ的アプローチの強み</div> <ul> <li><strong>適応性:</strong> 新しい証拠が得られるたびに確率を更新できる</li> <li><strong>事前知識の活用:</strong> ドメイン知識や過去の経験を事前確率として組み込める</li> <li><strong>不確実性の定量化:</strong> 判断に対する確信度を確率として表現できる</li> <li><strong>実用的応用分野:</strong> <ul> <li>スパムフィルタリング(ナイーブベイズ分類器)</li> <li>疾病診断と医療意思決定</li> <li>自然言語処理と文書分類</li> <li>推薦システムとパーソナライゼーション</li> <li>異常検知とセキュリティ応用</li> </ul> </li> </ul> </div>
問題 1/1
カテゴリ一覧に戻る