生存解析の検定手法(ログランク検定)
打ち切り(censoring)のあるデータにおいて、2つの群の生存曲線を比較するログランク検定について説明します。
ログランク検定の理論的基礎
Step 1: 生存解析の基本概念
生存解析では以下の概念が重要です:
- 生存時間:イベント発生までの時間
- 打ち切り:観測期間内にイベントが観測されない
- 生存関数:$S(t) = P(T > t)$
- ハザード関数:$h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t+\Delta t | T \geq t)}{\Delta t}$
Step 2: ログランク検定の仮説
帰無仮説と対立仮説:
$H_0: S_A(t) = S_B(t) \quad \text{すべての} t \text{について}$
$H_1: S_A(t) \neq S_B(t) \quad \text{少なくとも一つの} t \text{について}$
つまり、2つの群の生存曲線が等しいかどうかを検定します。
データの整理と生存表の作成
Step 3: 観測データの整理
与えられたデータ:
- 治療群A:5, 8, 12+, 15, 18+($n_A = 5$)
- 治療群B:3, 7, 10, 14+, 20+($n_B = 5$)
ここで「+」は打ち切りを表します。
Step 4: イベント時点の統合
全イベント時点を昇順に並べ、生存表を作成:
| 時点$t_i$ | 群A死亡数$d_{Ai}$ | 群B死亡数$d_{Bi}$ | 群Aリスク数$n_{Ai}$ | 群Bリスク数$n_{Bi}$ | 総死亡数$d_i$ | 総リスク数$n_i$ |
|---|
| 3 | 0 | 1 | 5 | 5 | 1 | 10 |
| 5 | 1 | 0 | 5 | 4 | 1 | 9 |
| 7 | 0 | 1 | 4 | 4 | 1 | 8 |
| 8 | 1 | 0 | 4 | 3 | 1 | 7 |
| 10 | 0 | 1 | 3 | 3 | 1 | 6 |
| 12 | 0 | 0 | 3 | 2 | 0 | 5 |
| 14 | 0 | 0 | 2 | 2 | 0 | 4 |
| 15 | 1 | 0 | 2 | 1 | 1 | 3 |
Step 5: 期待死亡数の計算
各時点での群Aの期待死亡数:
$E_{Ai} = \frac{n_{Ai} \times d_i}{n_i}$
各時点の計算:
- $t=3$: $E_{A3} = \frac{5 \times 1}{10} = 0.5$
- $t=5$: $E_{A5} = \frac{5 \times 1}{9} = 0.556$
- $t=7$: $E_{A7} = \frac{4 \times 1}{8} = 0.5$
- $t=8$: $E_{A8} = \frac{4 \times 1}{7} = 0.571$
- $t=10$: $E_{A10} = \frac{3 \times 1}{6} = 0.5$
- $t=15$: $E_{A15} = \frac{2 \times 1}{3} = 0.667$
ログランク統計量の計算
Step 6: 観測死亡数と期待死亡数の合計
群Aの観測死亡数の合計:
$O_A = \sum d_{Ai} = 0 + 1 + 0 + 1 + 0 + 0 + 0 + 1 = 3$
群Aの期待死亡数の合計:
$E_A = \sum E_{Ai} = 0.5 + 0.556 + 0.5 + 0.571 + 0.5 + 0.667 = 3.294$
Step 7: 分散の計算
ログランク統計量の分散:
$V_A = \sum \frac{n_{Ai} n_{Bi} d_i (n_i - d_i)}{n_i^2 (n_i - 1)}$
各時点の分散成分:
- $t=3$: $V_3 = \frac{5 \times 5 \times 1 \times 9}{10^2 \times 9} = \frac{225}{900} = 0.25$
- $t=5$: $V_5 = \frac{5 \times 4 \times 1 \times 8}{9^2 \times 8} = \frac{160}{648} = 0.247$
- $t=7$: $V_7 = \frac{4 \times 4 \times 1 \times 7}{8^2 \times 7} = \frac{112}{448} = 0.25$
- $t=8$: $V_8 = \frac{4 \times 3 \times 1 \times 6}{7^2 \times 6} = \frac{72}{294} = 0.245$
- $t=10$: $V_{10} = \frac{3 \times 3 \times 1 \times 5}{6^2 \times 5} = \frac{45}{180} = 0.25$
- $t=15$: $V_{15} = \frac{2 \times 1 \times 1 \times 2}{3^2 \times 2} = \frac{4}{18} = 0.222$
総分散:
$V_A = 0.25 + 0.247 + 0.25 + 0.245 + 0.25 + 0.222 = 1.464$
Step 8: ログランク検定統計量
ログランク検定統計量:
$\chi^2_{LR} = \frac{(O_A - E_A)^2}{V_A} = \frac{(3 - 3.294)^2}{1.464} = \frac{(-0.294)^2}{1.464} = \frac{0.0864}{1.464} = 0.059$
ログランク検定の特徴
- 打ち切り対応:不完全観測データの適切な処理
- 非パラメトリック:分布の仮定が不要
- 比例ハザード:ハザード比が時間によらず一定
- 検出力:ハザード関数の差の検出に優れる
- 頑健性:様々な生存分布に適用可能
統計的推論と判定
Step 9: 漸近分布と判定
大標本において、ログランク統計量は:
$\chi^2_{LR} \xrightarrow{d} \chi^2_1$
自由度1のカイ二乗分布に従います。
有意水準$\alpha = 0.05$での判定:
- 臨界値:$\chi^2_{0.05,1} = 3.84$
- $\chi^2_{LR} = 0.06 < 3.84$:帰無仮説を棄却しない
- 結論:5%水準で2つの治療群の生存曲線に有意差はない
カプラン・マイヤー推定との関係
Step 10: 生存曲線の推定
カプラン・マイヤー推定量:
$\hat{S}(t) = \prod_{t_i \leq t} \left(1 - \frac{d_i}{n_i}\right)$
各群の生存確率の推定により、視覚的な比較も可能です。
Step 11: 他の検定法との比較
| 検定法 | 特徴 | 適用場面 |
|---|
| ログランク検定 | 全期間で等しい重み | 比例ハザード仮定下 |
| ウィルコクソン検定 | 早期に重み | 早期の差が重要 |
| テローン検定 | 後期に重み | 長期効果が重要 |
| 重み付きログランク | 任意の重み関数 | 特定パターンの差 |