標本調査問題17 - 青の統計学-DS Playground-

タイトルをここにレベル1

問題はここに

解説

解答と解説を表示

層化抽出におけるネイマン配分

この問題では、層化抽出において分散を最小化する最適配分であるネイマン配分（Neyman allocation）の計算を学習します。統計検定準1級でも重要な概念です。

問題設定の整理

層	層サイズ(Nₕ)	標準偏差(σₕ)
第1層	500	10
第2層	300	20
第3層	200	30
合計	1000	-

総標本サイズ：n = 100
目標：ネイマン配分による各層の標本サイズ

Step 1: ネイマン配分の基本原理

ネイマン配分は、総標本サイズが固定された条件下で、層化推定量の分散を最小化する配分方法です。

各層の標本サイズは以下の式で決定されます：

$$n_h = n \times \frac{N_h \sigma_h}{\sum_{k=1}^L N_k \sigma_k}$$

ここで：

$n_h$：第h層の標本サイズ
$N_h$：第h層の母集団サイズ
$\sigma_h$：第h層の標準偏差
$L$：層数（今回は3）

Step 2: 各層の重みの計算

まず、各層の $N_h \sigma_h$ を計算します：

第1層：$N_1 \sigma_1 = 500 \times 10 = 5000$
第2層：$N_2 \sigma_2 = 300 \times 20 = 6000$
第3層：$N_3 \sigma_3 = 200 \times 30 = 6000$

Step 3: 総和の計算

$$\sum_{k=1}^3 N_k \sigma_k = 5000 + 6000 + 6000 = 17000$$

Step 4: 各層の配分比率

各層の配分比率を計算：

第1層：$\frac{N_1 \sigma_1}{\sum N_k \sigma_k} = \frac{5000}{17000} = \frac{5}{17} ≈ 0.294$
第2層：$\frac{N_2 \sigma_2}{\sum N_k \sigma_k} = \frac{6000}{17000} = \frac{6}{17} ≈ 0.353$
第3層：$\frac{N_3 \sigma_3}{\sum N_k \sigma_k} = \frac{6000}{17000} = \frac{6}{17} ≈ 0.353$

配分比率の検証

配分比率の合計：$\frac{5}{17} + \frac{6}{17} + \frac{6}{17} = \frac{17}{17} = 1.0$ ✓

Step 5: 各層の標本サイズ計算

総標本サイズn = 100を各層に配分：

第1層：$n_1 = 100 \times \frac{5}{17} = \frac{500}{17} ≈ 29.41 → 29$
第2層：$n_2 = 100 \times \frac{6}{17} = \frac{600}{17} ≈ 35.29 → 35$
第3層：$n_3 = 100 \times \frac{6}{17} = \frac{600}{17} ≈ 35.29 → 35$

四捨五入後の合計：29 + 35 + 35 = 99

総標本サイズ100と1つ差があるため、最大の配分である第2層または第3層に1を加えます。

$$n_1 = 29, \quad n_2 = 35, \quad n_3 = 36$$

または均等に分散させて：

$$n_1 = 30, \quad n_2 = 35, \quad n_3 = 35$$

厳密な計算による確認

より正確な計算：

$n_1 = \frac{500}{17} = 29.412...$
$n_2 = \frac{600}{17} = 35.294...$
$n_3 = \frac{600}{17} = 35.294...$

四捨五入すると：$n_1 = 29, n_2 = 35, n_3 = 35$

合計が99になるため、誤差配分で調整。

ネイマン配分の特徴

Step 6: 配分原理の理解

ネイマン配分では：

大きな層：層サイズが大きいほど多く配分
分散の大きな層：標準偏差が大きいほど多く配分
効率性：分散最小化による最高効率

今回の結果を見ると：

第1層：サイズ最大だが分散最小 → 中程度の配分
第2・3層：分散が大きいため多めの配分

Step 7: 他の配分方法との比較

配分方法	第1層	第2層	第3層	特徴
比例配分	50	30	20	層サイズに比例
等配分	33	33	34	各層に等分
ネイマン配分	29	35	36	分散最小化

配分効果の比較

ネイマン配分の効果：

分散の小さい第1層：比例配分より少なく配分
分散の大きい第2・3層：比例配分より多く配分
全体効果：層化推定量の分散が最小化

分散の比較計算

Step 8: 層化推定量の分散

層化推定量の分散は：

$$V(\bar{y}_{st}) = \sum_{h=1}^L W_h^2 \frac{\sigma_h^2}{n_h}$$

ここで、$W_h = \frac{N_h}{N}$ は層の重みです。

Step 9: ネイマン配分の分散計算

層の重み：

$W_1 = \frac{500}{1000} = 0.5$
$W_2 = \frac{300}{1000} = 0.3$
$W_3 = \frac{200}{1000} = 0.2$

ネイマン配分（29, 35, 36）での分散：

$$V_{Neyman} = 0.5^2 \times \frac{100}{29} + 0.3^2 \times \frac{400}{35} + 0.2^2 \times \frac{900}{36}$$

$$= 0.25 \times 3.45 + 0.09 \times 11.43 + 0.04 \times 25.0$$

$$= 0.863 + 1.029 + 1.000 = 2.892$$

比例配分との効率比較

比例配分（50, 30, 20）での分散：

$$V_{比例} = 0.25 \times 2.0 + 0.09 \times 13.33 + 0.04 \times 45.0$$

$$= 0.500 + 1.200 + 1.800 = 3.500$$

効率性：$\frac{V_{Neyman}}{V_{比例}} = \frac{2.892}{3.500} = 0.826$

ネイマン配分により分散が約17%削減されます。

実際の調査での応用

Step 10: 事前情報の重要性

ネイマン配分には各層の標準偏差の事前推定が必要：

過去の調査：類似調査での実績値
予備調査：小規模事前調査での推定
外部データ：行政統計等の参考値
専門知識：現象特性からの推測

Step 11: 制約条件下での調整

実際の調査では追加制約を考慮：

最小標本サイズ：各層で最低n個確保
費用制約：層別調査費用の違い
実務制約：調査員配置・地理的条件

修正ネイマン配分の例

各層で最低5個確保する場合：

各層に5個ずつ配分：15個使用
残り85個をネイマン配分
結果：$n_1 = 5 + 25 = 30$、$n_2 = 5 + 30 = 35$、$n_3 = 5 + 30 = 35$

層化抽出の設計要点

Step 12: 層の設定原則

効果的な層化抽出のための層設定：

層内同質性：層内の要素が類似
層間異質性：層間で明確な差
補助変数：目的変数と相関の高い変数で層化
実用性：抽出枠での層判別可能性

Step 13: 層化効果の評価

層化の効果測定：

$$\text{層化効果} = \frac{V(\bar{y}_{srs})}{V(\bar{y}_{st})}$$

ここで、$V(\bar{y}_{srs})$は単純無作為抽出の分散です。

実装時の注意点

標本サイズの整数化：四捨五入による調整
層内標本不足：ネイマン配分で極端に小さくなる層への対応
事後層化：抽出後に判明する層化変数への対応
多段抽出との組み合わせ：実用的な抽出設計

統計ソフトウェアでの実装

Step 14: 主要ソフトでの層化抽出

R：sampling パッケージの strata 関数
SAS：PROC SURVEYSELECT の ALLOCATION=NEYMAN
SPSS：Complex Samples での層化設定
Stata：样本設計での層化指定

Step 15: 実用的な配分計算

Excel等での簡易計算手順：

各層の $N_h \times \sigma_h$ を計算
総和を求める
各層の配分比率を計算
総標本サイズを乗じて配分
整数調整で最終決定

今回の計算結果の総括

最終的な標本配分（四捨五入・調整後）：

第1層：30個（29.4から調整）
第2層：35個（35.3から調整）
第3層：35個（35.3から調整）

この配分により、層化推定量の分散が最小化されます。

標本調査法