2段抽出における分散の分解
2段抽出は調査実務で頻繁に使用される複雑な標本設計です。分散が地区間成分と地区内成分に分解される点が重要で、統計検定準1級レベルの必須理論です。
問題設定の整理
- 第1段抽出:20地区を80地区から抽出(抽出率 f₁ = 20/80 = 0.25)
- 第2段抽出:各地区内で10世帯を100世帯から抽出(抽出率 f₂ = 10/100 = 0.1)
- 地区間分散:σ²ᵦ = 25
- 地区内分散:σ²ᵨ = 16
- 総標本サイズ:n = 20 × 10 = 200
Step 1: 2段抽出の基本構造
2段抽出における標本平均は:
$\bar{y} = \frac{1}{a}\sum_{i=1}^{a} \bar{y}_i = \frac{1}{a}\sum_{i=1}^{a} \frac{1}{b}\sum_{j=1}^{b} y_{ij}$
ここで:
- $a = 20$:第1段で選ばれた地区数
- $b = 10$:各地区で選ばれた世帯数
- $\bar{y}_i$:第i地区の標本平均
- $y_{ij}$:第i地区第j世帯の値
Step 2: 分散の分解原理
2段抽出の分散は以下のように分解されます:
$Var(\bar{y}) = Var_1[E_2(\bar{y}|\text{第1段})] + E_1[Var_2(\bar{y}|\text{第1段})]$
第1項:地区間変動による分散
第2項:地区内抽出による分散の期待値
Step 3: 地区間分散成分の計算
第1項は地区平均の変動による分散:
$Var_1[E_2(\bar{y}|\text{第1段})] = Var_1\left[\frac{1}{a}\sum_{i=1}^{a} \mu_i\right]$
ここで$\mu_i$は第i地区の母集団平均です。
第1段が単純無作為抽出なので:
$Var_1\left[\frac{1}{a}\sum_{i=1}^{a} \mu_i\right] = \frac{1}{a^2} \times a \times \frac{\sigma_B^2}{1} \times \left(1 - \frac{a}{A}\right)$
$= \frac{\sigma_B^2}{a}\left(1 - \frac{a}{A}\right)$
ここで:
- $A = 80$:母集団の地区総数
- $a = 20$:抽出地区数
- $\sigma_B^2 = 25$:地区間分散
$= \frac{25}{20}\left(1 - \frac{20}{80}\right) = 1.25 \times (1 - 0.25) = 1.25 \times 0.75 = 0.9375$
Step 4: 地区内分散成分の計算
第2項は各地区内での抽出による分散:
$E_1[Var_2(\bar{y}|\text{第1段})] = E_1\left[Var_2\left(\frac{1}{a}\sum_{i=1}^{a} \bar{y}_i\right)\right]$
$= E_1\left[\frac{1}{a^2}\sum_{i=1}^{a} Var_2(\bar{y}_i)\right]$
各地区内での標本平均の分散:
$Var_2(\bar{y}_i) = \frac{\sigma_W^2}{b}\left(1 - \frac{b}{B}\right)$
ここで:
- $B = 100$:各地区の世帯総数
- $b = 10$:各地区の抽出世帯数
- $\sigma_W^2 = 16$:地区内分散
$Var_2(\bar{y}_i) = \frac{16}{10}\left(1 - \frac{10}{100}\right) = 1.6 \times (1 - 0.1) = 1.6 \times 0.9 = 1.44$
したがって:
$E_1[Var_2(\bar{y}|\text{第1段})] = \frac{1}{20^2} \times 20 \times 1.44 = \frac{1.44}{20} = 0.072$
Step 5: 総分散の計算
2段抽出による標本平均の分散:
$Var(\bar{y}) = 0.9375 + 0.072 = 1.0095$