主成分分析(PCA)と固有値・固有ベクトル
主成分分析(PCA)は、多次元データの情報をできるだけ損失しないように、より低い次元の空間にデータを変換する(次元削減する)ための代表的な手法です。データの共分散行列(または相関行列)の固有値分解(または特異値分解)が中心的な役割を果たします。
データ行列 \(\mathbf{X}\) の共分散行列を \(\mathbf{S}\) とします。
- 固有ベクトル: 共分散行列 \(\mathbf{S}\) の固有ベクトルは、データの分散が最も大きい方向から順に、互いに直交する主成分軸の方向を示します。最大の固有値に対応する固有ベクトルが第一主成分の方向(PC1)、二番目に大きい固有値に対応する固有ベクトルが第二主成分の方向(PC2)、となります。
- 固有値: 共分散行列 \(\mathbf{S}\) の各固有値は、対応する固有ベクトル(主成分軸)方向へのデータの分散の大きさを表します。固有値が大きいほど、その主成分軸方向へのデータの広がりが大きいことを意味します。
PCAでは、固有値が大きい順に主成分を選択します。これは、データの分散が大きい方向ほど、元のデータの特徴(情報)をよく保持していると考えられるためです。例えば、第一主成分、第二主成分といった少数の主成分軸にデータを射影することで、元のデータの情報の大部分を保持したまま次元を削減できる場合があります。各主成分が元のデータの全分散のうちどれだけの割合を説明しているか(寄与率)は、対応する固有値を全固有値の合計で割ることで計算できます。
選択肢の評価
- 選択肢1: 主成分の方向を示すのは固有ベクトルであり、その要素の値は固有値とは異なります。
- 選択肢2: データ点が主成分軸に射影されたときの座標値は主成分スコアと呼ばれますが、固有値そのものではありません。
- 選択肢3: 正しい。固有値は、対応する固有ベクトル(主成分軸)方向のデータの分散の大きさを表します。
- 選択肢4: 平均値からの距離は、分散や標準偏差と関連しますが、固有値の直接的な意味ではありません。
したがって、PCAにおける固有値の意味として最も適切なのは選択肢3です。
PCAのプロセス概要
- データの前処理(平均を0にするセンタリングなど)。
- データの共分散行列を計算する。
- 共分散行列の固有値と固有ベクトルを計算する。
- 固有値を大きい順に並べ、対応する固有ベクトル(主成分)を選択する。
- 元のデータを、選択した主成分軸に射影して次元削減されたデータ(主成分スコア)を得る。