モデル選択・評価

AIC、BIC、交差検証、ROC曲線、混合行列など、統計モデルの選択と評価に関する手法

ブートストラップ法の原理と応用 レベル1

ブートストラップ法について、正しい記述はどれか。

解説
解答と解説を表示

この問題では、ブートストラップ法について理解を深めます。ブートストラップ法は、統計的推論において分布の仮定を置かずに、データから直接的に統計量の分布を推定する強力な手法です。[[memory:1942104]]

ブートストラップ法の基本概念

Step 1: ブートストラップ法の発想

基本的なアイデア:

  • 「データ自体が母集団の最良の推定値」という考え方
  • 観測データから繰り返し再サンプリングすることで、統計量の分布を近似
  • パラメトリックな仮定を必要としないノンパラメトリック手法

Step 2: ブートストラップ法の数学的定義

元データ:

$$\\mathbf{X} = \\{x_1, x_2, \\ldots, x_n\\}$$

ブートストラップサンプル:

$$\\mathbf{X}^* = \\{x_1^*, x_2^*, \\ldots, x_n^*\\}$$

ここで、$x_i^*$は元データから復元抽出により選ばれます。

統計量の計算:

$$\\theta^* = T(\\mathbf{X}^*)$$

ここで、$T(\\cdot)$は任意の統計量を表す関数です。

ブートストラップ法の核心原理

「プラグイン原理」

  • 母集団分布 $F$経験分布 $\\hat{F}_n$
  • 母集団パラメータ $\\theta$サンプル統計量 $\\hat{\\theta}_n$
  • 真の分布からのサンプリング経験分布からのサンプリング

ブートストラップ法の詳細手順

Step 3: 標準的なブートストラップ手順

1. 元データの準備:

  • サンプルサイズ$n$の観測データ $\\{x_1, x_2, \\ldots, x_n\\}$
  • 関心のある統計量$\\theta = T(\\mathbf{X})$の定義

2. ブートストラップサンプルの生成:

$$\\text{for } b = 1, 2, \\ldots, B:\\quad \\mathbf{X}_b^* = \\{x_{1b}^*, x_{2b}^*, \\ldots, x_{nb}^*\\}$$

各 $x_{ib}^*$ は元データから独立に復元抽出されます。

3. 統計量の計算:

$$\\theta_b^* = T(\\mathbf{X}_b^*) \\quad \\text{for } b = 1, 2, \\ldots, B$$

4. ブートストラップ分布の構築:

$$\\{\\theta_1^*, \\theta_2^*, \\ldots, \\theta_B^*\\}$$

この集合が$\\theta$のブートストラップ分布を形成します。

Step 4: 復元抽出の重要性

なぜ復元抽出なのか:

  • 元データの情報を最大限活用:すべての観測値が等しい重みを持つ
  • 変動性の再現:実際のサンプリング変動を模倣
  • サンプルサイズの維持:元データと同じサイズを保つ

復元抽出の特徴:

  • 重複あり:同じデータポイントが複数回選ばれる可能性
  • 欠落あり:元データの一部が選ばれない可能性
  • 確率的変動:各ブートストラップサンプルは異なる

ブートストラップ法の理論的基礎

Step 5: 経験分布との関係

経験分布:

$$\\hat{F}_n(x) = \\frac{1}{n} \\sum_{i=1}^n \\mathbf{1}_{\\{x_i \\leq x\\}}$$

ここで、$\\mathbf{1}_{\\{\\cdot\\}}$は指示関数です。

ブートストラップサンプルの解釈:

  • 経験分布$\\hat{F}_n$からの独立同分布サンプル
  • 各データポイントが確率$1/n$で選ばれる
  • 多項分布に従う重複度

Step 6: 一致性の理論

Glivenko-Cantelli定理:

$$\\sup_x |\\hat{F}_n(x) - F(x)| \\xrightarrow{a.s.} 0 \\quad \\text{as } n \\to \\infty$$

これにより、$n$が大きくなるにつれて、ブートストラップ分布は真の分布に収束します。

ブートストラップ法の収束性

条件:

  • 統計量の滑らかさ:$T(\\cdot)$が十分に滑らかな関数
  • 有限な分散:$\\text{Var}(\\theta)$が有限
  • 大標本条件:$n$が十分に大きい

収束の意味:

  • 分布の弱収束:$\\theta^* \\xrightarrow{d} \\theta$
  • モーメントの収束:$E[\\theta^*] \\to E[\\theta]$

ブートストラップ法の実用的応用

Step 7: 信頼区間の構築

1. パーセンタイル法:

$$CI_{\\alpha} = [\\theta^*_{(\\alpha/2)}, \\theta^*_{(1-\\alpha/2)}]$$

ここで、$\\theta^*_{(p)}$は$p$分位点です。

2. バイアス補正パーセンタイル法(BC法):

$$CI_{\\alpha} = [\\theta^*_{(\\alpha_1)}, \\theta^*_{(\\alpha_2)}]$$

ここで、$\\alpha_1, \\alpha_2$はバイアス補正された分位点です。

3. バイアス補正・加速化法(BCa法):

  • バイアス補正:推定量の偏りを補正
  • 加速化:分布の歪みを考慮
  • 最も精度の高い方法の一つ

Step 8: 仮説検定への応用

ブートストラップ検定:

  1. 帰無仮説下でのデータ生成:$H_0$が真の場合の条件でブートストラップ
  2. 検定統計量の計算:各ブートストラップサンプルで統計量を計算
  3. p値の算出:観測された統計量より極端な値の割合

Step 9: 実装上の考慮事項

ブートストラップ回数$B$の選択:

目的推奨回数理由
標準誤差の推定$B = 200$比較的少ない回数で十分
信頼区間の構築$B = 1000$分位点の精度が重要
仮説検定$B = 2000$p値の精度が重要

計算効率の向上:

  • 並列処理:各ブートストラップサンプルの独立性を利用
  • メモリ効率:必要な統計量のみを保存
  • アルゴリズムの最適化:統計量の計算を効率化
問題 1/10
カテゴリ一覧に戻る