標本調査法

層化抽出、集落抽出、系統抽出、ネイマン配分など、統計検定準1級レベルの標本調査法を学習します。

タイトルをここに レベル1

問題はここに

解説
解答と解説を表示

層化抽出におけるネイマン配分

この問題では、層化抽出において分散を最小化する最適配分であるネイマン配分(Neyman allocation)の計算を学習します。統計検定準1級でも重要な概念です。

問題設定の整理
層サイズ(Nₕ)標準偏差(σₕ)
第1層50010
第2層30020
第3層20030
合計1000-
  • 総標本サイズ:n = 100
  • 目標:ネイマン配分による各層の標本サイズ

Step 1: ネイマン配分の基本原理

ネイマン配分は、総標本サイズが固定された条件下で、層化推定量の分散を最小化する配分方法です。

各層の標本サイズは以下の式で決定されます:

$$n_h = n \times \frac{N_h \sigma_h}{\sum_{k=1}^L N_k \sigma_k}$$

ここで:

  • $n_h$:第h層の標本サイズ
  • $N_h$:第h層の母集団サイズ
  • $\sigma_h$:第h層の標準偏差
  • $L$:層数(今回は3)

Step 2: 各層の重みの計算

まず、各層の $N_h \sigma_h$ を計算します:

  • 第1層:$N_1 \sigma_1 = 500 \times 10 = 5000$
  • 第2層:$N_2 \sigma_2 = 300 \times 20 = 6000$
  • 第3層:$N_3 \sigma_3 = 200 \times 30 = 6000$

Step 3: 総和の計算

$$\sum_{k=1}^3 N_k \sigma_k = 5000 + 6000 + 6000 = 17000$$

Step 4: 各層の配分比率

各層の配分比率を計算:

  • 第1層:$\frac{N_1 \sigma_1}{\sum N_k \sigma_k} = \frac{5000}{17000} = \frac{5}{17} ≈ 0.294$
  • 第2層:$\frac{N_2 \sigma_2}{\sum N_k \sigma_k} = \frac{6000}{17000} = \frac{6}{17} ≈ 0.353$
  • 第3層:$\frac{N_3 \sigma_3}{\sum N_k \sigma_k} = \frac{6000}{17000} = \frac{6}{17} ≈ 0.353$

配分比率の検証

配分比率の合計:$\frac{5}{17} + \frac{6}{17} + \frac{6}{17} = \frac{17}{17} = 1.0$ ✓

Step 5: 各層の標本サイズ計算

総標本サイズn = 100を各層に配分:

  • 第1層:$n_1 = 100 \times \frac{5}{17} = \frac{500}{17} ≈ 29.41 → 29$
  • 第2層:$n_2 = 100 \times \frac{6}{17} = \frac{600}{17} ≈ 35.29 → 35$
  • 第3層:$n_3 = 100 \times \frac{6}{17} = \frac{600}{17} ≈ 35.29 → 35$

四捨五入後の合計:29 + 35 + 35 = 99

総標本サイズ100と1つ差があるため、最大の配分である第2層または第3層に1を加えます。

$$n_1 = 29, \quad n_2 = 35, \quad n_3 = 36$$

または均等に分散させて:

$$n_1 = 30, \quad n_2 = 35, \quad n_3 = 35$$

厳密な計算による確認

より正確な計算:

  • $n_1 = \frac{500}{17} = 29.412...$
  • $n_2 = \frac{600}{17} = 35.294...$
  • $n_3 = \frac{600}{17} = 35.294...$

四捨五入すると:$n_1 = 29, n_2 = 35, n_3 = 35$

合計が99になるため、誤差配分で調整。

ネイマン配分の特徴

Step 6: 配分原理の理解

ネイマン配分では:

  • 大きな層:層サイズが大きいほど多く配分
  • 分散の大きな層:標準偏差が大きいほど多く配分
  • 効率性:分散最小化による最高効率

今回の結果を見ると:

  • 第1層:サイズ最大だが分散最小 → 中程度の配分
  • 第2・3層:分散が大きいため多めの配分

Step 7: 他の配分方法との比較

配分方法第1層第2層第3層特徴
比例配分503020層サイズに比例
等配分333334各層に等分
ネイマン配分293536分散最小化

配分効果の比較

ネイマン配分の効果:

  • 分散の小さい第1層:比例配分より少なく配分
  • 分散の大きい第2・3層:比例配分より多く配分
  • 全体効果:層化推定量の分散が最小化

分散の比較計算

Step 8: 層化推定量の分散

層化推定量の分散は:

$$V(\bar{y}_{st}) = \sum_{h=1}^L W_h^2 \frac{\sigma_h^2}{n_h}$$

ここで、$W_h = \frac{N_h}{N}$ は層の重みです。

Step 9: ネイマン配分の分散計算

層の重み:

  • $W_1 = \frac{500}{1000} = 0.5$
  • $W_2 = \frac{300}{1000} = 0.3$
  • $W_3 = \frac{200}{1000} = 0.2$

ネイマン配分(29, 35, 36)での分散:

$$V_{Neyman} = 0.5^2 \times \frac{100}{29} + 0.3^2 \times \frac{400}{35} + 0.2^2 \times \frac{900}{36}$$
$$= 0.25 \times 3.45 + 0.09 \times 11.43 + 0.04 \times 25.0$$
$$= 0.863 + 1.029 + 1.000 = 2.892$$

比例配分との効率比較

比例配分(50, 30, 20)での分散:

$$V_{比例} = 0.25 \times 2.0 + 0.09 \times 13.33 + 0.04 \times 45.0$$
$$= 0.500 + 1.200 + 1.800 = 3.500$$

効率性:$\frac{V_{Neyman}}{V_{比例}} = \frac{2.892}{3.500} = 0.826$

ネイマン配分により分散が約17%削減されます。

実際の調査での応用

Step 10: 事前情報の重要性

ネイマン配分には各層の標準偏差の事前推定が必要:

  • 過去の調査:類似調査での実績値
  • 予備調査:小規模事前調査での推定
  • 外部データ:行政統計等の参考値
  • 専門知識:現象特性からの推測

Step 11: 制約条件下での調整

実際の調査では追加制約を考慮:

  • 最小標本サイズ:各層で最低n個確保
  • 費用制約:層別調査費用の違い
  • 実務制約:調査員配置・地理的条件

修正ネイマン配分の例

各層で最低5個確保する場合:

  1. 各層に5個ずつ配分:15個使用
  2. 残り85個をネイマン配分
  3. 結果:$n_1 = 5 + 25 = 30$、$n_2 = 5 + 30 = 35$、$n_3 = 5 + 30 = 35$

層化抽出の設計要点

Step 12: 層の設定原則

効果的な層化抽出のための層設定:

  • 層内同質性:層内の要素が類似
  • 層間異質性:層間で明確な差
  • 補助変数:目的変数と相関の高い変数で層化
  • 実用性:抽出枠での層判別可能性

Step 13: 層化効果の評価

層化の効果測定:

$$\text{層化効果} = \frac{V(\bar{y}_{srs})}{V(\bar{y}_{st})}$$

ここで、$V(\bar{y}_{srs})$は単純無作為抽出の分散です。

実装時の注意点

  • 標本サイズの整数化:四捨五入による調整
  • 層内標本不足:ネイマン配分で極端に小さくなる層への対応
  • 事後層化:抽出後に判明する層化変数への対応
  • 多段抽出との組み合わせ:実用的な抽出設計

統計ソフトウェアでの実装

Step 14: 主要ソフトでの層化抽出

  • R:sampling パッケージの strata 関数
  • SAS:PROC SURVEYSELECT の ALLOCATION=NEYMAN
  • SPSS:Complex Samples での層化設定
  • Stata:样本設計での層化指定

Step 15: 実用的な配分計算

Excel等での簡易計算手順:

  1. 各層の $N_h \times \sigma_h$ を計算
  2. 総和を求める
  3. 各層の配分比率を計算
  4. 総標本サイズを乗じて配分
  5. 整数調整で最終決定

今回の計算結果の総括

最終的な標本配分(四捨五入・調整後):

  • 第1層:30個(29.4から調整)
  • 第2層:35個(35.3から調整)
  • 第3層:35個(35.3から調整)

この配分により、層化推定量の分散が最小化されます。

問題 1/10