この問題では、多項分布の理論と実用性について理解を深めます。多項分布は二項分布の自然な一般化として、複数のカテゴリを持つ試行の結果をモデル化する基本的な確率分布です。
多項分布:多カテゴリ確率モデルの基礎
多項分布(Multinomial Distribution)は、サイコロ投げ、多肢選択テスト、顧客の選択行動など、複数の排他的選択肢がある状況をモデル化する分布です。
Step 1: 多項分布の数学的定義
$k$個のカテゴリを持つ多項分布$\text{Multinomial}(n, \mathbf{p})$は以下で定義されます:
$P(X_1 = x_1, X_2 = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1! x_2! \cdots x_k!} p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}$
ここで:
- $n$:総試行回数
- $\mathbf{p} = (p_1, p_2, \ldots, p_k)$:各カテゴリの確率($\sum_{i=1}^k p_i = 1$)
- $\mathbf{X} = (X_1, X_2, \ldots, X_k)$:各カテゴリの観測回数($\sum_{i=1}^k X_i = n$)
多項分布の基本性質
| 性質 | 公式 | 意味 |
|---|
| 期待値 | $E[X_i] = np_i$ | 各カテゴリの期待観測回数 |
| 分散 | $\text{Var}(X_i) = np_i(1-p_i)$ | 各カテゴリのばらつき |
| 共分散 | $\text{Cov}(X_i, X_j) = -np_ip_j$ | カテゴリ間の負の相関 |
Step 2: 問題設定の詳細分析
与えられた多項分布:
- カテゴリ数:$k = 3$
- 試行回数:$n = 12$
- 確率ベクトル:$\mathbf{p} = (0.5, 0.3, 0.2)$
確率の正規化確認:
$p_1 + p_2 + p_3 = 0.5 + 0.3 + 0.2 = 1.0 \quad ✓$
Step 3: カテゴリ1の期待値計算
多項分布における各カテゴリの期待値は二項分布と同じ形式:
$E[X_1] = np_1 = 12 \times 0.5 = 6$
これは直感的にも理解できます:12回の試行で、各試行においてカテゴリ1が選ばれる確率が0.5なので、平均的に6回選ばれることが期待されます。
Step 4: カテゴリ1の分散の詳細計算
多項分布における各カテゴリの分散:
$\text{Var}(X_1) = np_1(1 - p_1)$
与えられた値を代入:
\begin{align}\text{Var}(X_1) &= 12 \times 0.5 \times (1 - 0.5) \\&= 12 \times 0.5 \times 0.5 \\&= 12 \times 0.25 \\&= 3.0\end{align}
分散公式の導出
なぜ$\text{Var}(X_i) = np_i(1-p_i)$なのか:
- 指示変数による表現:$X_i = \sum_{j=1}^n Y_{ij}$($Y_{ij}$は$j$回目の試行でカテゴリ$i$が選ばれる指示変数)
- 各指示変数の分散:$\text{Var}(Y_{ij}) = p_i(1-p_i)$
- 独立性:異なる試行の指示変数は独立
- 分散の加法性:$\text{Var}(X_i) = \sum_{j=1}^n \text{Var}(Y_{ij}) = np_i(1-p_i)$
Step 5: 他のカテゴリの統計量
比較のため、他のカテゴリの期待値と分散も計算:
\begin{align}E[X_2] &= np_2 = 12 \times 0.3 = 3.6 \\\text{Var}(X_2) &= np_2(1-p_2) = 12 \times 0.3 \times 0.7 = 2.52\end{align}
\begin{align}E[X_3] &= np_3 = 12 \times 0.2 = 2.4 \\\text{Var}(X_3) &= np_3(1-p_3) = 12 \times 0.2 \times 0.8 = 1.92\end{align}
確認:
$E[X_1] + E[X_2] + E[X_3] = 6 + 3.6 + 2.4 = 12 = n \quad ✓$
Step 6: 共分散構造の分析
多項分布では、カテゴリ間に負の共分散が存在します:
\begin{align}\text{Cov}(X_1, X_2) &= -np_1p_2 = -12 \times 0.5 \times 0.3 = -1.8 \\\text{Cov}(X_1, X_3) &= -np_1p_3 = -12 \times 0.5 \times 0.2 = -1.2 \\\text{Cov}(X_2, X_3) &= -np_2p_3 = -12 \times 0.3 \times 0.2 = -0.72\end{align}
この負の共分散は、総和が固定($\sum X_i = n$)されているため、一つのカテゴリが多く観測されると他が減る制約を反映しています。
多項分布の実用的応用
Step 7: 実世界での応用例
市場調査:
12人の消費者が3つのブランド(A, B, C)から選択する状況:
- ブランドA(50%):平均6人、分散3.0
- ブランドB(30%):平均3.6人、分散2.52
- ブランドC(20%):平均2.4人、分散1.92
品質管理:
製品の品質検査で「良品」「軽微な欠陥」「重大な欠陥」の3カテゴリ分類:
$\text{良品率} = 0.5, \quad \text{軽微欠陥率} = 0.3, \quad \text{重大欠陥率} = 0.2$
Step 8: 統計的推論への応用
カイ二乗適合度検定:
観測値と期待値の比較による仮説検定:
$\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i} = \sum_{i=1}^k \frac{(X_i - np_i)^2}{np_i}$
多項ロジスティック回帰:
説明変数による各カテゴリの確率のモデル化:
$P(Y = j|\mathbf{x}) = \frac{\exp(\mathbf{x}^T\boldsymbol{\beta}_j)}{1 + \sum_{k=1}^{K-1}\exp(\mathbf{x}^T\boldsymbol{\beta}_k)}$
洞察
多項分布の分散$np_i(1-p_i)$は、確率$p_i = 0.5$のときに最大となります。これは情報理論におけるエントロピーの最大化と対応し、最も「予測困難」な状況を表します。カテゴリ1の分散3.0は、12回の試行における不確実性の度合いを定量化しており、品質管理や意思決定において重要な指標となります。