主成分分析の固有値計算:共分散行列の分析
主成分分析における固有値の意味
主成分分析では、データの分散を最大化する方向(主成分)を見つけます。各主成分の分散は共分散行列の固有値として得られ、これがデータの変動の大きさを表します。固有値が大きいほど、その方向でのデータの散らばりが大きいことを意味します。
固有値の計算手順
Step 1: 特性方程式の設定
与えられた共分散行列:
$\mathbf{S} = \begin{pmatrix} 4 & 2 \\ 2 & 2 \end{pmatrix}$
固有値$\lambda$を求めるため、特性方程式を立てます:
$\det(\mathbf{S} - \lambda \mathbf{I}) = 0$
$\det\begin{pmatrix} 4-\lambda & 2 \\ 2 & 2-\lambda \end{pmatrix} = 0$
Step 2: 行列式の展開
2×2行列の行列式を計算:
$(4-\lambda)(2-\lambda) - 2 \cdot 2 = 0$
$(4-\lambda)(2-\lambda) - 4 = 0$
$8 - 4\lambda - 2\lambda + \lambda^2 - 4 = 0$
$\lambda^2 - 6\lambda + 4 = 0$
Step 3: 2次方程式の解
解の公式を使用:
$\lambda = \frac{6 \pm \sqrt{36 - 16}}{2} = \frac{6 \pm \sqrt{20}}{2}$
$\lambda = \frac{6 \pm 2\sqrt{5}}{2} = 3 \pm \sqrt{5}$
したがって:
- 第1固有値:$\lambda_1 = 3 + \sqrt{5} \approx 3 + 2.236 = 5.236$
- 第2固有値:$\lambda_2 = 3 - \sqrt{5} \approx 3 - 2.236 = 0.764$
Step 4: 結果の検証
固有値の性質確認
- 非負性:$\lambda_1, \lambda_2 > 0$ ✓(共分散行列は半正定値)
- 順序:$\lambda_1 > \lambda_2$ ✓
- トレース:$\lambda_1 + \lambda_2 = 5.236 + 0.764 = 6 = \text{tr}(\mathbf{S})$ ✓
- 行列式:$\lambda_1 \times \lambda_2 = 5.236 \times 0.764 \approx 4 = \det(\mathbf{S})$ ✓
Step 5: 主成分分析への応用
第1主成分の寄与率:
$\text{寄与率}_1 = \frac{\lambda_1}{\lambda_1 + \lambda_2} = \frac{5.236}{6} \approx 87.3\%$
これは第1主成分だけで全分散の87.3%を説明できることを意味します。
実際の意味
第1固有値 = 5.236 は、データを第1主成分方向に射影したときの分散の大きさです。元の2次元データの大部分の変動がこの1つの方向で捉えられるため、効果的な次元削減が可能であることを示しています。
固有ベクトルとの関係
第1固有値に対応する固有ベクトルが第1主成分の方向を示し、この方向でデータの分散が最大(5.236)になります。この手法により、高次元データの主要な変動パターンを特定できます。