カプランマイヤー推定量:生存時間分析の基礎
生存時間分析とカプランマイヤー推定量
カプランマイヤー推定量(Kaplan-Meier estimator)は、生存時間分析において最も基本的で重要な非母数的推定法です。打ち切りデータ(censored data)が存在する場合でも、偏りのない生存関数の推定を可能にします。
生存時間分析の基本概念
Step 1: 生存時間データの特徴
基本用語:
- 生存時間:イベント(死亡、再発など)が起こるまでの時間
- イベント:関心のある事象(死亡、病気の再発、機械の故障など)
- 打ち切り:観察期間内にイベントが起こらない場合
打ち切りの種類:
- 右側打ち切り:観察終了時にイベントが未発生
- 左側打ち切り:観察開始前にイベントが発生した可能性
- 区間打ち切り:イベント発生時刻が区間内のどこかにある
生存関数の定義
生存関数$S(t)$は、時刻$t$まで生存する確率を表します:
$S(t) = P(T > t)$
ここで、$T$は生存時間(確率変数)です。
Step 2: カプランマイヤー推定量の定義
基本的な設定:
- $n$個の個体を観察
- 観察される時刻:$t_1 < t_2 < \cdots < t_k$
- 各時刻$t_i$でのイベント数:$d_i$
- 各時刻$t_i$の直前のリスク集合の大きさ:$n_i$
リスク集合:
時刻$t$における「リスク集合」$R(t)$は、時刻$t$の直前まで生存しており、イベントが起こりうる個体の集合です。
$R(t) = \{i : T_i \geq t\}$
Step 3: カプランマイヤー推定量の公式
生存関数の推定:
$\hat{S}(t) = \prod_{t_i \leq t} \left(1 - \frac{d_i}{n_i}\right)$
ここで:
- $d_i$:時刻$t_i$でのイベント発生数
- $n_i$:時刻$t_i$の直前のリスク集合の大きさ
- $\frac{d_i}{n_i}$:時刻$t_i$でのハザード率の推定値
カプランマイヤー推定量の特徴
- 非母数的:分布に関する仮定が不要
- 右下がりの階段関数:イベント発生時刻でのみ値が変化
- 不偏推定量:適切な仮定の下で$E[\hat{S}(t)] = S(t)$
- 最尤推定量:離散時間下での最尤推定
Step 4: 計算例
具体的なデータ例:
| 個体 | 観察時間 | イベント | 状態 |
|---|
| 1 | 5 | 死亡 | イベント |
| 2 | 8 | 打ち切り | 生存 |
| 3 | 12 | 死亡 | イベント |
| 4 | 15 | 打ち切り | 生存 |
| 5 | 20 | 死亡 | イベント |
計算手順:
- 時刻5:$n_1 = 5$, $d_1 = 1$ ⟹ $\hat{S}(5) = 1 \times (1 - 1/5) = 0.8$
- 時刻8:打ち切りなので生存関数は変化しない
- 時刻12:$n_2 = 3$, $d_2 = 1$ ⟹ $\hat{S}(12) = 0.8 \times (1 - 1/3) = 0.533$
- 時刻15:打ち切りなので生存関数は変化しない
- 時刻20:$n_3 = 1$, $d_3 = 1$ ⟹ $\hat{S}(20) = 0.533 \times (1 - 1/1) = 0$
Step 5: 分散の推定(Greenwood公式)
Greenwood分散推定量:
$\text{Var}[\hat{S}(t)] = [\hat{S}(t)]^2 \sum_{t_i \leq t} \frac{d_i}{n_i(n_i - d_i)}$
信頼区間の構築:
対数変換を用いた信頼区間:
$\hat{S}(t)^{\exp(\pm z_{\alpha/2} \sqrt{\text{Var}[\log \hat{S}(t)]}/\hat{S}(t))}$
Step 6: 打ち切りデータの処理
打ち切りの仮定:
- 無関連打ち切り:打ち切りがイベント発生と独立
- 非情報的打ち切り:打ち切り時刻がイベント時刻に関する情報を含まない
打ち切りの処理方法:
- 打ち切り時刻まではリスク集合に含める
- 打ち切り時刻でリスク集合から除外
- 生存関数の値は変化させない
他の推定法との比較
| 推定法 | タイプ | 仮定 | 適用場面 |
|---|
| カプランマイヤー | 非母数 | 分布仮定なし | 探索的分析、グラフ表示 |
| ネルソン・アーレン | 非母数 | 累積ハザード推定 | ハザード関数の推定 |
| 母数的手法 | 母数 | 特定の分布 | モデルベースの推論 |
| Cox回帰 | 準母数 | 比例ハザード | 共変量の効果評価 |
Step 7: 統計的推論
ログランク検定:
2群間の生存曲線の比較:
$\chi^2 = \frac{(O_1 - E_1)^2}{V_1} + \frac{(O_2 - E_2)^2}{V_2}$
ここで、$O_i$は観測イベント数、$E_i$は期待イベント数
信頼区間:
点推定だけでなく、不確実性の評価も重要