ブートストラップ法の原理と応用 - モデル選択・評価問題14

ブートストラップ法の原理と応用レベル1

ブートストラップ法について、正しい記述はどれか。

解説

解答と解説を表示

この問題では、ブートストラップ法について理解を深めます。ブートストラップ法は、統計的推論において分布の仮定を置かずに、データから直接的に統計量の分布を推定する強力な手法です。[[memory:1942104]]

ブートストラップ法の基本概念

Step 1: ブートストラップ法の発想

基本的なアイデア：

「データ自体が母集団の最良の推定値」という考え方
観測データから繰り返し再サンプリングすることで、統計量の分布を近似
パラメトリックな仮定を必要としないノンパラメトリック手法

Step 2: ブートストラップ法の数学的定義

元データ：

$$\\mathbf{X} = \\{x_1, x_2, \\ldots, x_n\\}$$

ブートストラップサンプル：

$$\\mathbf{X}^* = \\{x_1^*, x_2^*, \\ldots, x_n^*\\}$$

ここで、$x_i^*$は元データから復元抽出により選ばれます。

統計量の計算：

$$\\theta^* = T(\\mathbf{X}^*)$$

ここで、$T(\\cdot)$は任意の統計量を表す関数です。

ブートストラップ法の核心原理

「プラグイン原理」：

母集団分布 $F$ → 経験分布 $\\hat{F}_n$
母集団パラメータ $\\theta$ → サンプル統計量 $\\hat{\\theta}_n$
真の分布からのサンプリング → 経験分布からのサンプリング

ブートストラップ法の詳細手順

Step 3: 標準的なブートストラップ手順

1. 元データの準備：

サンプルサイズ$n$の観測データ $\\{x_1, x_2, \\ldots, x_n\\}$
関心のある統計量$\\theta = T(\\mathbf{X})$の定義

2. ブートストラップサンプルの生成：

$$\\text{for } b = 1, 2, \\ldots, B:\\quad \\mathbf{X}_b^* = \\{x_{1b}^*, x_{2b}^*, \\ldots, x_{nb}^*\\}$$

各 $x_{ib}^*$ は元データから独立に復元抽出されます。

3. 統計量の計算：

$$\\theta_b^* = T(\\mathbf{X}_b^*) \\quad \\text{for } b = 1, 2, \\ldots, B$$

4. ブートストラップ分布の構築：

$$\\{\\theta_1^*, \\theta_2^*, \\ldots, \\theta_B^*\\}$$

この集合が$\\theta$のブートストラップ分布を形成します。

Step 4: 復元抽出の重要性

なぜ復元抽出なのか：

元データの情報を最大限活用：すべての観測値が等しい重みを持つ
変動性の再現：実際のサンプリング変動を模倣
サンプルサイズの維持：元データと同じサイズを保つ

復元抽出の特徴：

重複あり：同じデータポイントが複数回選ばれる可能性
欠落あり：元データの一部が選ばれない可能性
確率的変動：各ブートストラップサンプルは異なる

ブートストラップ法の理論的基礎

Step 5: 経験分布との関係

経験分布：

$$\\hat{F}_n(x) = \\frac{1}{n} \\sum_{i=1}^n \\mathbf{1}_{\\{x_i \\leq x\\}}$$

ここで、$\\mathbf{1}_{\\{\\cdot\\}}$は指示関数です。

ブートストラップサンプルの解釈：

経験分布$\\hat{F}_n$からの独立同分布サンプル
各データポイントが確率$1/n$で選ばれる
多項分布に従う重複度

Step 6: 一致性の理論

Glivenko-Cantelli定理：

$$\\sup_x |\\hat{F}_n(x) - F(x)| \\xrightarrow{a.s.} 0 \\quad \\text{as } n \\to \\infty$$

これにより、$n$が大きくなるにつれて、ブートストラップ分布は真の分布に収束します。

ブートストラップ法の収束性

条件：

統計量の滑らかさ：$T(\\cdot)$が十分に滑らかな関数
有限な分散：$\\text{Var}(\\theta)$が有限
大標本条件：$n$が十分に大きい

収束の意味：

分布の弱収束：$\\theta^* \\xrightarrow{d} \\theta$
モーメントの収束：$E[\\theta^*] \\to E[\\theta]$

ブートストラップ法の実用的応用

Step 7: 信頼区間の構築

1. パーセンタイル法：

$$CI_{\\alpha} = [\\theta^*_{(\\alpha/2)}, \\theta^*_{(1-\\alpha/2)}]$$

ここで、$\\theta^*_{(p)}$は$p$分位点です。

2. バイアス補正パーセンタイル法（BC法）：

$$CI_{\\alpha} = [\\theta^*_{(\\alpha_1)}, \\theta^*_{(\\alpha_2)}]$$

ここで、$\\alpha_1, \\alpha_2$はバイアス補正された分位点です。

3. バイアス補正・加速化法（BCa法）：

バイアス補正：推定量の偏りを補正
加速化：分布の歪みを考慮
最も精度の高い方法の一つ

Step 8: 仮説検定への応用

ブートストラップ検定：

帰無仮説下でのデータ生成：$H_0$が真の場合の条件でブートストラップ
検定統計量の計算：各ブートストラップサンプルで統計量を計算
p値の算出：観測された統計量より極端な値の割合

Step 9: 実装上の考慮事項

ブートストラップ回数$B$の選択：

目的	推奨回数	理由
標準誤差の推定	$B = 200$	比較的少ない回数で十分
信頼区間の構築	$B = 1000$	分位点の精度が重要
仮説検定	$B = 2000$	p値の精度が重要

計算効率の向上：

並列処理：各ブートストラップサンプルの独立性を利用
メモリ効率：必要な統計量のみを保存
アルゴリズムの最適化：統計量の計算を効率化