順列検定の数学的基礎
順列検定は帰無仮説の下で、データの順列(置換)がすべて等確率で生じるという交換可能性(exchangeability)の仮定に基づく検定法です。
$H_0: \text{観測値の順列がすべて等確率で生じる}$
順列検定の理論的原理
Step 1: 交換可能性の概念
確率変数列$(X_1, X_2, \ldots, X_n)$が交換可能であるとは、任意の順列$\pi$に対して:
$(X_1, X_2, \ldots, X_n) \stackrel{d}{=} (X_{\pi(1)}, X_{\pi(2)}, \ldots, X_{\pi(n)})$
この性質により、帰無仮説の下で全ての順列が等確率で生じます。
Step 2: 順列検定統計量
観測データ$\mathbf{x} = (x_1, x_2, \ldots, x_n)$に対する検定統計量$T(\mathbf{x})$について、帰無仮説の下での正確な分布:
$P(T \geq t | H_0) = \frac{\#\{\pi: T(\mathbf{x}_{\pi}) \geq t\}}{n!}$
ここで$\mathbf{x}_{\pi}$は$\mathbf{x}$の順列$\pi$による並び替えです。
順列検定の実装アルゴリズム
Step 3: モンテカルロ近似
全順列の計算が困難な場合、ランダムサンプリングによる近似:
$\hat{p} = \frac{1}{B} \sum_{b=1}^B \mathbf{1}\{T(\mathbf{x}_{\pi_b}) \geq T(\mathbf{x})\}$
ここで$\pi_1, \pi_2, \ldots, \pi_B$は$B$個のランダム順列です。
順列検定の統計的性質
順列検定の理論的優位性
分布フリー性:
- 正規性不要:分布の形状に依存しない
- 等分散性不要:分散の等質性を仮定しない
- 独立性のみ:観測間の独立性のみ必要
正確性:
- 有限標本:標本サイズに関係なく正確
- 条件付き推論:観測データを条件とした正確推論
- 漸近近似不要:中心極限定理に依存しない
Step 4: パラメトリック検定との比較
| 特性 | 順列検定 | パラメトリック検定 | 備考 |
|---|
| 分布仮定 | 交換可能性のみ | 特定分布(正規分布等) | 順列検定が柔軟 |
| 計算複雑度 | $O(n!)$ または $O(B)$ | $O(1)$ | 計算負荷は順列検定が大 |
| 有限標本性能 | 正確 | 近似 | 小標本で順列検定が優位 |
| 検出力 | 仮定下で高効率 | 仮定下で最適 | 条件により異なる |
| 頑健性 | 外れ値に頑健 | 外れ値に敏感 | 順列検定が頑健 |
順列検定の応用範囲
Step 5: 適用可能な問題設定
- 2標本問題:平均・中央値の差の検定
- 対応のある検定:ペア比較
- 多標本問題:一元配置分散分析の代替
- 相関・回帰:無相関検定、回帰係数検定
- 適合度検定:分布の適合性
Step 6: データ型による制約
順列検定は以下のデータ型に適用可能:
- 連続データ:一般的な適用
- 順序データ:順位に基づく検定
- 離散データ:カテゴリカルデータの検定
- 混合データ:異なる型の組み合わせ
したがって、順列検定の特徴として「分布に関する仮定が最小限で済む」が正しい記述です。