多次元尺度法のストレス:距離保持性能の評価
ストレスの概念
多次元尺度法(MDS)では、高次元空間の距離情報を低次元空間で再現します。ストレス(Stress)は、この距離保持がどの程度うまくいっているかを測る重要な指標で、MDSの品質評価と次元数決定に使用されます。
ストレスの定義と計算
Step 1: 基本的なストレス定義
最も一般的なKruskalのストレス関数:
$\text{Stress} = \sqrt{\frac{\sum_{i\leq j}(d_{ij}-\hat{d}_{ij})^2}{\sum_{i\leq j} d_{ij}^2}}$
ここで:
- $d_{ij}$:元の高次元空間での距離
- $\hat{d}_{ij}$:低次元空間での再構成された距離
- $i, j$:データ点のインデックス
Step 2: ストレスの数学的性質
範囲:$0 \leq \text{Stress} \leq 1$
理想値:
- $\text{Stress} = 0$:完全な距離保持(理想的)
- $\text{Stress} = 1$:最悪の距離保持
実用的な解釈基準:
| ストレス値 | 品質評価 | 解釈 |
|---|
| 0.00 - 0.025 | 優秀 | ほぼ完璧な適合 |
| 0.025 - 0.05 | 良好 | 優れた適合、有用 |
| 0.05 - 0.10 | 普通 | 妥当な適合 |
| 0.10 - 0.20 | 不良 | 適合に問題あり |
| 0.20以上 | 非常に不良 | 使用不適切 |
Step 3: 様々なストレス関数
ストレス-1(Kruskalのストレス):
$\text{Stress-1} = \sqrt{\frac{\sum_{i\leq j} (d_{ij} - \hat{d}_{ij})^2}{\sum_{i\leq j} d_{ij}^2}}$
ストレス-2(正規化ストレス):
$\text{Stress-2} = \sqrt{\frac{\sum_{i\leq j} (d_{ij} - \hat{d}_{ij})^2}{\sum_{i\leq j} (d_{ij} - \bar{d})^2}}$
ここで、$\bar{d}$は距離の平均
Raw Stress(生ストレス):
$\text{Raw Stress} = \sum_{i\leq j} (d_{ij} - \hat{d}_{ij})^2$
Step 4: 非計量MDSにおけるストレス
非計量MDS(非線形MDS)では、順序関係のみを保持:
$\text{Stress} = \sqrt{\frac{\sum_{i\leq j} (\hat{d}_{ij} - \tilde{d}_{ij})^2}{\sum_{i\leq j} \hat{d}_{ij}^2}}$
ここで、$\tilde{d}_{ij}$は単調回帰により求められた値
単調回帰の役割
非計量MDSでは、距離の絶対値ではなく順序関係を保持します。単調回帰(isotonic regression)により、元の距離の順序を保ちながら、低次元空間の距離に最も近い値$\tilde{d}_{ij}$を求めます。
Step 5: ストレスの最適化
MDSアルゴリズムはストレス関数を最小化:
- 初期配置:ランダムまたは主成分分析による初期座標
- 反復改善:勾配降下法やSMACOF算法
- 収束判定:ストレス値の変化が閾値以下
- 局所最適解対策:複数の初期値からの実行
Step 6: SMACOF算法
**Scaling by MAjorizing a COmplicated Function**の略:
$X^{(k+1)} = \frac{1}{n} B(X^{(k)}) X^{(k)}$
ここで、$B$は重み行列、$X$は座標行列
Step 7: 次元数の決定
エルボー法:
- 次元数とストレス値をプロット
- ストレスの急激な減少が止まる点を選択
- 計算コストと解釈性のバランス
実例計算:
| 次元数 | ストレス値 | 改善度 |
|---|
| 1次元 | 0.341 | - |
| 2次元 | 0.125 | 0.216 |
| 3次元 | 0.089 | 0.036 |
| 4次元 | 0.076 | 0.013 |
この例では2次元が適切(大幅な改善後、改善度が小さくなる)