クラスター抽出における設計効果の計算
この問題では、クラスター抽出が単純無作為抽出と比較してどの程度効率が低下するかを測る設計効果を学習します。クラスター内相関が推定精度に与える影響を定量的に理解する重要な概念です。
問題設定の整理
- 総クラスター数:M = 500
- 各クラスターのサイズ:N = 20要素
- 母集団総数:500 × 20 = 10000
- 抽出クラスター数:m = 50
- 各クラスターからの調査:全数(n = 20)
- 総標本サイズ:50 × 20 = 1000
- クラスター内相関係数:ρ = 0.15
Step 1: 設計効果の定義
設計効果(design effect, deff)は:
$\text{deff} = \frac{V(\hat{\bar{Y}}_{cluster})}{V(\hat{\bar{Y}}_{srs})}$
ここで:
- $V(\hat{\bar{Y}}_{cluster})$:クラスター抽出による推定量の分散
- $V(\hat{\bar{Y}}_{srs})$:同じ標本サイズの単純無作為抽出による推定量の分散
Step 2: クラスター抽出の分散
クラスター抽出(各クラスター全数調査)の場合:
$V(\hat{\bar{Y}}_{cluster}) = \frac{1-f_1}{m} \cdot \frac{S_b^2}{N}$
ここで:
- $f_1 = \frac{m}{M} = \frac{50}{500} = 0.1$:第1段抽出率
- $S_b^2$:クラスター平均間の分散
- $N = 20$:クラスターサイズ
Step 3: 単純無作為抽出の分散
同じ標本サイズ(n=1000)の単純無作為抽出の場合:
$V(\hat{\bar{Y}}_{srs}) = \frac{1-f}{n} \cdot S^2$
ここで:
- $f = \frac{n}{MN} = \frac{1000}{10000} = 0.1$:抽出率
- $S^2$:母集団全体の分散
クラスター内相関係数の役割
クラスター内相関係数ρは以下の関係で定義:
$\rho = \frac{S_b^2 - S_w^2/N}{S_b^2 + (N-1)S_w^2/N}$
ここで:
- $S_b^2$:クラスター間分散
- $S_w^2$:クラスター内分散
Step 4: 分散成分の関係
母集団全体の分散は:
$S^2 = S_b^2 + \frac{N-1}{N} S_w^2$
クラスター内相関係数から:
$S_b^2 = \frac{\rho S^2}{1 + (N-1)\rho}$
Step 5: 設計効果の一般公式
クラスター抽出(全数調査)の設計効果は:
$\text{deff} = 1 + (N-1)\rho$
この公式は、有限母集団修正が同じ場合に成り立ちます。
Step 6: 数値計算
与えられた値を代入:
$\text{deff} = 1 + (N-1)\rho = 1 + (20-1) \times 0.15$
$= 1 + 19 \times 0.15 = 1 + 2.85 = 3.85$
したがって、設計効果は3.85です。
設計効果の解釈
| 設計効果値 | 意味 | 効率性 |
|---|
| 1.0 | 単純無作為抽出と同等 | 100% |
| 2.0 | 分散が2倍 | 50% |
| 3.85 | 分散が3.85倍 | 26% |
| 5.0 | 分散が5倍 | 20% |
今回の場合、クラスター抽出の効率は単純無作為抽出の約26%です。
設計効果の要因分析
Step 7: クラスターサイズの影響
異なるクラスターサイズでの設計効果:
| クラスターサイズ(N) | 設計効果 | 効率性 |
|---|
| 5 | 1 + 4×0.15 = 1.60 | 63% |
| 10 | 1 + 9×0.15 = 2.35 | 43% |
| 20 | 1 + 19×0.15 = 3.85 | 26% |
| 50 | 1 + 49×0.15 = 8.35 | 12% |
クラスターサイズが大きいほど効率が悪化します。
Step 8: 相関係数の影響
クラスターサイズN=20での相関係数別設計効果:
| 相関係数(ρ) | 設計効果 | 効率性 |
|---|
| 0.00 | 1.00 | 100% |
| 0.05 | 1.95 | 51% |
| 0.10 | 2.90 | 34% |
| 0.15 | 3.85 | 26% |
| 0.20 | 4.80 | 21% |
実効標本サイズ
設計効果を考慮した実効標本サイズは:
$n_{eff} = \frac{n}{\text{deff}} = \frac{1000}{3.85} \approx 260$
1000人を調査しても、実質的には260人の単純無作為抽出と同等の精度です。
クラスター抽出の最適化
Step 9: 最適クラスター数と抽出数
固定予算の下での最適配分(費用を考慮):
$\frac{m_{opt}}{M} = \sqrt{\frac{C_2 S_w^2}{C_1 S_b^2 N}}$
ここで:
- $C_1$:クラスター抽出の単位費用
- $C_2$:個体調査の単位費用
Step 10: 部分抽出による改善
各クラスターから部分抽出する場合の設計効果:
$\text{deff} = 1 + \rho(n-1) + \frac{(1-\rho)(N-n)}{nN}$
ここで、nは各クラスターからの抽出数です。
例:各クラスターから10人抽出の場合:
$\text{deff} = 1 + 0.15 \times 9 + \frac{0.85 \times 10}{10 \times 20} = 1 + 1.35 + 0.043 = 2.39$