層化抽出におけるネイマン配分
この問題では、層化抽出において分散を最小化する最適配分であるネイマン配分(Neyman allocation)の計算を学習します。統計検定準1級でも重要な概念です。
問題設定の整理
層 | 層サイズ(Nₕ) | 標準偏差(σₕ) |
---|
第1層 | 500 | 10 |
第2層 | 300 | 20 |
第3層 | 200 | 30 |
合計 | 1000 | - |
- 総標本サイズ:n = 100
- 目標:ネイマン配分による各層の標本サイズ
Step 1: ネイマン配分の基本原理
ネイマン配分は、総標本サイズが固定された条件下で、層化推定量の分散を最小化する配分方法です。
各層の標本サイズは以下の式で決定されます:
$$n_h = n \times \frac{N_h \sigma_h}{\sum_{k=1}^L N_k \sigma_k}$$
ここで:
- $n_h$:第h層の標本サイズ
- $N_h$:第h層の母集団サイズ
- $\sigma_h$:第h層の標準偏差
- $L$:層数(今回は3)
Step 2: 各層の重みの計算
まず、各層の $N_h \sigma_h$ を計算します:
- 第1層:$N_1 \sigma_1 = 500 \times 10 = 5000$
- 第2層:$N_2 \sigma_2 = 300 \times 20 = 6000$
- 第3層:$N_3 \sigma_3 = 200 \times 30 = 6000$
Step 3: 総和の計算
$$\sum_{k=1}^3 N_k \sigma_k = 5000 + 6000 + 6000 = 17000$$
Step 4: 各層の配分比率
各層の配分比率を計算:
- 第1層:$\frac{N_1 \sigma_1}{\sum N_k \sigma_k} = \frac{5000}{17000} = \frac{5}{17} ≈ 0.294$
- 第2層:$\frac{N_2 \sigma_2}{\sum N_k \sigma_k} = \frac{6000}{17000} = \frac{6}{17} ≈ 0.353$
- 第3層:$\frac{N_3 \sigma_3}{\sum N_k \sigma_k} = \frac{6000}{17000} = \frac{6}{17} ≈ 0.353$
配分比率の検証
配分比率の合計:$\frac{5}{17} + \frac{6}{17} + \frac{6}{17} = \frac{17}{17} = 1.0$ ✓
Step 5: 各層の標本サイズ計算
総標本サイズn = 100を各層に配分:
- 第1層:$n_1 = 100 \times \frac{5}{17} = \frac{500}{17} ≈ 29.41 → 29$
- 第2層:$n_2 = 100 \times \frac{6}{17} = \frac{600}{17} ≈ 35.29 → 35$
- 第3層:$n_3 = 100 \times \frac{6}{17} = \frac{600}{17} ≈ 35.29 → 35$
四捨五入後の合計:29 + 35 + 35 = 99
総標本サイズ100と1つ差があるため、最大の配分である第2層または第3層に1を加えます。
$$n_1 = 29, \quad n_2 = 35, \quad n_3 = 36$$
または均等に分散させて:
$$n_1 = 30, \quad n_2 = 35, \quad n_3 = 35$$
厳密な計算による確認
より正確な計算:
- $n_1 = \frac{500}{17} = 29.412...$
- $n_2 = \frac{600}{17} = 35.294...$
- $n_3 = \frac{600}{17} = 35.294...$
四捨五入すると:$n_1 = 29, n_2 = 35, n_3 = 35$
合計が99になるため、誤差配分で調整。
ネイマン配分の特徴
Step 6: 配分原理の理解
ネイマン配分では:
- 大きな層:層サイズが大きいほど多く配分
- 分散の大きな層:標準偏差が大きいほど多く配分
- 効率性:分散最小化による最高効率
今回の結果を見ると:
- 第1層:サイズ最大だが分散最小 → 中程度の配分
- 第2・3層:分散が大きいため多めの配分
Step 7: 他の配分方法との比較
配分方法 | 第1層 | 第2層 | 第3層 | 特徴 |
---|
比例配分 | 50 | 30 | 20 | 層サイズに比例 |
等配分 | 33 | 33 | 34 | 各層に等分 |
ネイマン配分 | 29 | 35 | 36 | 分散最小化 |
配分効果の比較
ネイマン配分の効果:
- 分散の小さい第1層:比例配分より少なく配分
- 分散の大きい第2・3層:比例配分より多く配分
- 全体効果:層化推定量の分散が最小化
分散の比較計算
Step 8: 層化推定量の分散
層化推定量の分散は:
$$V(\bar{y}_{st}) = \sum_{h=1}^L W_h^2 \frac{\sigma_h^2}{n_h}$$
ここで、$W_h = \frac{N_h}{N}$ は層の重みです。
Step 9: ネイマン配分の分散計算
層の重み:
- $W_1 = \frac{500}{1000} = 0.5$
- $W_2 = \frac{300}{1000} = 0.3$
- $W_3 = \frac{200}{1000} = 0.2$
ネイマン配分(29, 35, 36)での分散:
$$V_{Neyman} = 0.5^2 \times \frac{100}{29} + 0.3^2 \times \frac{400}{35} + 0.2^2 \times \frac{900}{36}$$
$$= 0.25 \times 3.45 + 0.09 \times 11.43 + 0.04 \times 25.0$$
$$= 0.863 + 1.029 + 1.000 = 2.892$$
比例配分との効率比較
比例配分(50, 30, 20)での分散:
$$V_{比例} = 0.25 \times 2.0 + 0.09 \times 13.33 + 0.04 \times 45.0$$
$$= 0.500 + 1.200 + 1.800 = 3.500$$
効率性:$\frac{V_{Neyman}}{V_{比例}} = \frac{2.892}{3.500} = 0.826$
ネイマン配分により分散が約17%削減されます。
実際の調査での応用
Step 10: 事前情報の重要性
ネイマン配分には各層の標準偏差の事前推定が必要:
- 過去の調査:類似調査での実績値
- 予備調査:小規模事前調査での推定
- 外部データ:行政統計等の参考値
- 専門知識:現象特性からの推測
Step 11: 制約条件下での調整
実際の調査では追加制約を考慮:
- 最小標本サイズ:各層で最低n個確保
- 費用制約:層別調査費用の違い
- 実務制約:調査員配置・地理的条件
修正ネイマン配分の例
各層で最低5個確保する場合:
- 各層に5個ずつ配分:15個使用
- 残り85個をネイマン配分
- 結果:$n_1 = 5 + 25 = 30$、$n_2 = 5 + 30 = 35$、$n_3 = 5 + 30 = 35$
層化抽出の設計要点
Step 12: 層の設定原則
効果的な層化抽出のための層設定:
- 層内同質性:層内の要素が類似
- 層間異質性:層間で明確な差
- 補助変数:目的変数と相関の高い変数で層化
- 実用性:抽出枠での層判別可能性
Step 13: 層化効果の評価
層化の効果測定:
$$\text{層化効果} = \frac{V(\bar{y}_{srs})}{V(\bar{y}_{st})}$$
ここで、$V(\bar{y}_{srs})$は単純無作為抽出の分散です。
実装時の注意点
- 標本サイズの整数化:四捨五入による調整
- 層内標本不足:ネイマン配分で極端に小さくなる層への対応
- 事後層化:抽出後に判明する層化変数への対応
- 多段抽出との組み合わせ:実用的な抽出設計
統計ソフトウェアでの実装
Step 14: 主要ソフトでの層化抽出
- R:sampling パッケージの strata 関数
- SAS:PROC SURVEYSELECT の ALLOCATION=NEYMAN
- SPSS:Complex Samples での層化設定
- Stata:样本設計での層化指定
Step 15: 実用的な配分計算
Excel等での簡易計算手順:
- 各層の $N_h \times \sigma_h$ を計算
- 総和を求める
- 各層の配分比率を計算
- 総標本サイズを乗じて配分
- 整数調整で最終決定
今回の計算結果の総括
最終的な標本配分(四捨五入・調整後):
- 第1層:30個(29.4から調整)
- 第2層:35個(35.3から調整)
- 第3層:35個(35.3から調整)
この配分により、層化推定量の分散が最小化されます。