EMアルゴリズムの基本概念 - 問題演習問題13

EMアルゴリズムの基本概念レベル1

2成分ガウス混合分布において、EMアルゴリズムの各ステップに関する説明として正しいものはどれか。

解説

解答と解説を表示

この問題では、EMアルゴリズム（Expectation-Maximization Algorithm）の基本原理と計算過程について理解を深めます。EMアルゴリズムは、観測されない潜在変数を含む統計モデルにおいて、最尤推定量を反復的に求める強力な手法です。混合分布、クラスタリング、異常検知など、現代の機械学習・統計学において幅広く応用されています。

EMアルゴリズムの理論的基盤

EMアルゴリズムは、不完全データの最尤推定問題を解決するために、デンプスター、レアード、ルービン（1977）によって提案されました。このアルゴリズムの核心は、観測データの対数尤度を潜在変数に関する期待値として表現し、これを反復的に最大化することにあります。

EMアルゴリズムの2段階構造

段階	数学的操作	統計的意味
E-step	$\\gamma_{ik} = \\frac{\\pi_k f(x_i\|\\theta_k)}{\\sum_{j=1}^K \\pi_j f(x_i\|\\theta_j)}$	潜在変数の事後確率（責任度）計算
M-step	$\\theta^{(t+1)} = \\arg\\max_{\\theta} Q(\\theta\|\\theta^{(t)})$	パラメータの最尤推定値更新

Step 1: 各選択肢の詳細検証

選択肢①：E-stepでの決定的分類について

この選択肢は誤りです。E-stepでは各データポイントを決定的に分類するのではなく、各成分への所属確率（責任度）を計算します。

$$\\gamma_{ik} = P(\\text{データ}i\\text{が成分}k\\text{に属する}|\\text{観測データ}, \\theta^{(t)})$$

この確率的アプローチにより、データポイントが複数の成分に「部分的に」属することが可能になります。これがhard clustering（K-means）とsoft clustering（混合モデル）の根本的な違いです。

Step 2: M-stepでのパラメータ更新

選択肢②：M-stepでの責任度の扱い

この選択肢は正しいです。M-stepでは、E-stepで計算された責任度$\\gamma_{ik}$を固定値として扱い、これを重みとして使用してパラメータを更新します。

M-stepでのパラメータ更新公式

パラメータ	更新公式	責任度の役割
混合係数	$\\pi_k^{(t+1)} = \\frac{1}{n}\\sum_{i=1}^n \\gamma_{ik}$	各成分の有効サンプル数
平均	$\\mu_k^{(t+1)} = \\frac{\\sum_{i=1}^n \\gamma_{ik} x_i}{\\sum_{i=1}^n \\gamma_{ik}}$	重み付き平均の重み
分散	$\\sigma_k^{2(t+1)} = \\frac{\\sum_{i=1}^n \\gamma_{ik} (x_i - \\mu_k^{(t+1)})^2}{\\sum_{i=1}^n \\gamma_{ik}}$	重み付き分散の重み

Step 3: 対数尤度の単調性

選択肢③：対数尤度の変化について

この選択肢は誤りです。EMアルゴリズムでは、対数尤度は単調増加することが理論的に保証されています。

$$\\ell(\\theta^{(t+1)}) \\geq \\ell(\\theta^{(t)})$$

この性質はJensen不等式に基づいており、EMアルゴリズムの収束性の理論的基盤となっています。

対数尤度の単調増加性の証明概要

EMアルゴリズムでは、以下の不等式が成立します：

$$\\ell(\\theta) \\geq \\ell(\\theta^{(t)}) + \\int Q(\\theta|\\theta^{(t)}) - Q(\\theta^{(t)}|\\theta^{(t)}) d\\theta$$

M-stepで$Q(\\theta|\\theta^{(t)})$を最大化することにより、$\\ell(\\theta^{(t+1)}) \\geq \\ell(\\theta^{(t)})$が成立します。

Step 4: 責任度の確率的解釈

選択肢④：責任度の解釈

この選択肢は正しいです。責任度$\\gamma_{ik}$は、データポイント$x_i$が成分$k$に属する事後確率として解釈されます。

$$\\gamma_{ik} = P(z_i = k | x_i, \\theta^{(t)})$$

ここで、$z_i$はデータポイント$i$の潜在変数（どの成分に属するかを示す）です。

Step 5: 責任度の数学的性質

責任度は以下の重要な性質を満たします：

責任度の基本性質

正規化条件：$\\sum_{k=1}^K \\gamma_{ik} = 1$ for all $i$
非負性：$\\gamma_{ik} \\geq 0$ for all $i,k$
確率的解釈：$\\gamma_{ik} \\in [0,1]$
ベイズ則：事前確率$\\pi_k$と尤度$f(x_i|\\theta_k)$から事後確率を計算

Step 6: 実用的応用における意義

この確率的アプローチにより、以下の利点が得られます：

柔軟な分類：境界付近のデータポイントを適切に処理
不確実性の定量化：分類の信頼度を数値で表現
段階的学習：初期推定から徐々に精度を向上
数学的厳密性：最尤推定の理論的保証

統計的洞察：
EMアルゴリズムの美しさは、複雑な最尤推定問題を「期待値計算」と「最大化」という理解しやすい2つのステップに分解することにあります。この分解により、解析的に扱いにくい問題でも反復的に解を求めることが可能になります。

EMアルゴリズムの実用的応用

クラスタリング：Gaussian Mixture Model (GMM)による柔軟な分類
異常検知：正常データの混合分布モデリング
密度推定：複雑な分布の近似
欠損データ処理：不完全データからの統計的推論
ベイズ推論：変分EMによる近似推論

確率と確率分布

EMアルゴリズムの理論的基盤