ブートストラップ法の数学的基礎
ブートストラップ法は、観測標本から復元抽出により多数の再標本を生成し、統計量の分布を近似する非パラメトリック手法です。
$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}_{\{X_i \leq x\}}$
経験分布$\hat{F}_n$から$B$個のブートストラップ標本を生成します。
パーセンタイル法の理論的根拠
Step 1: ブートストラップ統計量の定義
元標本$(X_1, X_2, \ldots, X_n)$から$B$個のブートストラップ標本を生成:
$\mathbf{X}^{*(b)} = (X_1^{*(b)}, X_2^{*(b)}, \ldots, X_n^{*(b)}) \quad (b = 1, 2, \ldots, B)$
各ブートストラップ標本から統計量を計算:
$\hat{\theta}^{*(b)} = T(\mathbf{X}^{*(b)})$
Step 2: パーセンタイル信頼区間の構成原理
ブートストラップ統計量$\hat{\theta}^{*(1)}, \hat{\theta}^{*(2)}, \ldots, \hat{\theta}^{*(B)}$を昇順に並べ替え:
$\hat{\theta}^{*}_{(1)} \leq \hat{\theta}^{*}_{(2)} \leq \cdots \leq \hat{\theta}^{*}_{(B)}$
$(1-\alpha) \times 100\%$信頼区間は:
$[\hat{\theta}^{*}_{(\lceil B \alpha/2 \rceil)}, \hat{\theta}^{*}_{(\lfloor B (1-\alpha/2) \rfloor)}]$
95%信頼区間の具体的計算
Step 3: パーセンタイル点の決定
信頼水準95%($\alpha = 0.05$)の場合:
- 下側パーセンタイル:$\alpha/2 = 0.025$
- 上側パーセンタイル:$1 - \alpha/2 = 0.975$
Step 4: 順位統計量の計算
$B = 1000$個のブートストラップ統計量について:
$\begin{align}\text{下限の順位} &= \lceil B \times 0.025 \rceil = \lceil 1000 \times 0.025 \rceil = \lceil 25 \rceil = 25 \\\text{上限の順位} &= \lfloor B \times 0.975 \rfloor = \lfloor 1000 \times 0.975 \rfloor = \lfloor 975 \rfloor = 975\end{align}$
ブートストラップ信頼区間の種類と比較
ブートストラップ信頼区間の分類
基本的手法:
- パーセンタイル法:単純、変換不変性あり
- 基本ブートストラップ法:対称性を仮定
改良手法:
- バイアス補正法(BC):推定量のバイアスを補正
- BCa法:バイアス補正と加速度補正
- ブートストラップt法:スチューデント化による改良
Step 5: パーセンタイル法の理論的性質
パーセンタイル法の信頼区間は以下の性質を持ちます:
- 変換不変性:単調変換に対して不変
- 範囲保存性:パラメータの定義域を保持
- 計算簡便性:追加の推定が不要
ただし、推定量にバイアスがある場合や分布が非対称の場合、被覆確率が名目水準から乖離する可能性があります。
Step 6: 実装上の考慮事項
| ブートストラップ標本数$B$ | 推奨用途 | 計算精度 |
|---|
| $B = 200$ | 探索的分析 | 粗い近似 |
| $B = 1000$ | 一般的な推論 | 精度 |
| $B = 2000$ | 信頼区間構成 | 高精度 |
| $B \geq 5000$ | 意思決定 | 非常に高精度 |
したがって、$B=1000$のブートストラップ標本から95%信頼区間を構成する場合、下限は25番目の値になります。