マハラノビス距離の計算:共分散を考慮した距離測定
マハラノビス距離の重要性
マハラノビス距離は、変数間の相関と分散の違いを考慮した距離尺度です。単純なユークリッド距離とは異なり、データの分布形状を反映するため、多変量統計解析において外れ値検出や分類問題で重要な役割を果たします。
マハラノビス距離の計算手順
Step 1: マハラノビス距離の定義
観測値$\mathbf{x}$と平均$\boldsymbol{\mu}$間のマハラノビス距離:
$d_M(\mathbf{x}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{S}^{-1} (\mathbf{x} - \boldsymbol{\mu})}$
ここで:
- $\mathbf{x}$:観測値ベクトル
- $\boldsymbol{\mu}$:平均ベクトル
- $\mathbf{S}$:共分散行列
- $\mathbf{S}^{-1}$:共分散行列の逆行列
Step 2: 与えられた値の確認
- 平均ベクトル:$\boldsymbol{\mu} = \begin{pmatrix} 1 \\ 2 \end{pmatrix}$
- 共分散行列:$\mathbf{S} = \begin{pmatrix} 4 & 2 \\ 2 & 2 \end{pmatrix}$
- 観測値:$\mathbf{x} = \begin{pmatrix} 3 \\ 4 \end{pmatrix}$
Step 3: 差分ベクトルの計算
$(\mathbf{x} - \boldsymbol{\mu}) = \begin{pmatrix} 3 \\ 4 \end{pmatrix} - \begin{pmatrix} 1 \\ 2 \end{pmatrix} = \begin{pmatrix} 2 \\ 2 \end{pmatrix}$
Step 4: 共分散行列の逆行列計算
2×2行列の逆行列公式:$\mathbf{A}^{-1} = \frac{1}{\det(\mathbf{A})} \begin{pmatrix} a_{22} & -a_{12} \\ -a_{21} & a_{11} \end{pmatrix}$
行列式の計算:
$\det(\mathbf{S}) = 4 \times 2 - 2 \times 2 = 8 - 4 = 4$
逆行列:
$\mathbf{S}^{-1} = \frac{1}{4} \begin{pmatrix} 2 & -2 \\ -2 & 4 \end{pmatrix} = \begin{pmatrix} 0.5 & -0.5 \\ -0.5 & 1.0 \end{pmatrix}$
Step 5: 二次形式の計算
$(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{S}^{-1} (\mathbf{x} - \boldsymbol{\mu})$を計算:
$\begin{pmatrix} 2 & 2 \end{pmatrix} \begin{pmatrix} 0.5 & -0.5 \\ -0.5 & 1.0 \end{pmatrix} \begin{pmatrix} 2 \\ 2 \end{pmatrix}$
中間計算:
$\begin{pmatrix} 2 & 2 \end{pmatrix} \begin{pmatrix} 0.5 \times 2 + (-0.5) \times 2 \\ (-0.5) \times 2 + 1.0 \times 2 \end{pmatrix} = \begin{pmatrix} 2 & 2 \end{pmatrix} \begin{pmatrix} 0 \\ 1 \end{pmatrix}$
$= 2 \times 0 + 2 \times 1 = 2$
Step 6: マハラノビス距離の算出
$d_M(\mathbf{x}) = \sqrt{2}$
結果の検証と解釈
| 距離の種類 | 値 | 計算 |
|---|
| ユークリッド距離 | $\sqrt{8} = 2\sqrt{2}$ | $\sqrt{2^2 + 2^2}$ |
| マハラノビス距離 | $\sqrt{2}$ | 共分散考慮済み |
マハラノビス距離とユークリッド距離の比較
この例では、マハラノビス距離($\sqrt{2}$)がユークリッド距離($2\sqrt{2}$)より小さくなっています。これは:
- 正の相関:変数間の共分散が正(2)のため
- 楕円状分布:データが斜めの楕円状に分布
- 実効距離の短縮:相関を考慮すると、実際の「離れ具合」は小さい
統計的性質
多変量正規分布$N_p(\boldsymbol{\mu}, \mathbf{S})$からの観測値の場合:
$d_M^2(\mathbf{x}) \sim \chi^2_p$
この例では$p=2$なので、$d_M^2 = 2$は$\chi^2_2$分布に従います。