ネイマン配分による最適標本配分の計算
この問題では、各層の標準偏差を考慮して分散を最小化する最適配分(ネイマン配分)を学習します。比例配分よりも効率的な推定を可能にする高度な手法です。
問題設定の整理
- A地域:N₁ = 1000人、σ₁ = 20
- B地域:N₂ = 800人、σ₂ = 30
- C地域:N₃ = 600人、σ₃ = 40
- 母集団総数:N = 1000 + 800 + 600 = 2400人
- 総標本サイズ:n = 120人
- 配分方法:ネイマン配分(最適配分)
Step 1: ネイマン配分の原理
ネイマン配分では、各層の標本サイズを層のサイズと標準偏差の積に比例させます:
$$n_h \propto N_h \sigma_h$$
具体的な公式:
$$n_h = n \times \frac{N_h \sigma_h}{\sum_{k=1}^L N_k \sigma_k}$$
Step 2: 各層の重み係数の計算
各地域の $N_h \sigma_h$ を計算:
$$N_1 \sigma_1 = 1000 \times 20 = 20,000$$
$$N_2 \sigma_2 = 800 \times 30 = 24,000$$
$$N_3 \sigma_3 = 600 \times 40 = 24,000$$
合計:
$$\sum_{k=1}^3 N_k \sigma_k = 20,000 + 24,000 + 24,000 = 68,000$$
Step 3: 各地域の標本サイズ計算
A地域の標本サイズ:
$$n_1 = 120 \times \frac{20,000}{68,000} = 120 \times \frac{20}{68} = 120 \times \frac{5}{17}$$
$$n_1 = 120 \times 0.2941 = 35.29$$
四捨五入すると:35人
確認のため他の地域も計算:
$$n_2 = 120 \times \frac{24,000}{68,000} = 120 \times \frac{24}{68} = 120 \times \frac{6}{17} = 42.35 \approx 42$$
$$n_3 = 120 \times \frac{24,000}{68,000} = 120 \times \frac{24}{68} = 120 \times \frac{6}{17} = 42.35 \approx 42$$
計算の再確認
より正確な計算を行うと:
$$n_1 = 120 \times \frac{20,000}{68,000} = 120 \times \frac{20}{68} = \frac{2400}{68} = 35.294$$
四捨五入で35人となりますが、端数処理を考慮した調整が必要な場合があります。
Step 4: 端数処理と調整
理論値の合計確認:
$$35.294 + 42.353 + 42.353 = 120.000$$
四捨五入後:$35 + 42 + 42 = 119$
1人不足するため、最大の端数を持つ地域に+1:
- A地域:35人(端数0.294)
- B地域:43人(端数0.353→調整で+1)
- C地域:42人(端数0.353)
より精密な計算では、A地域は35人となります。
比例配分との比較
同じ条件で比例配分した場合:
地域 | 比例配分 | ネイマン配分 | 差 |
---|
A地域 | 50人 | 35人 | -15人 |
B地域 | 40人 | 43人 | +3人 |
C地域 | 30人 | 42人 | +12人 |
Step 5: ネイマン配分の効率性
ネイマン配分による分散(簡略版):
$$\text{Var}_{Neyman} = \frac{1}{n} \left( \sum_{h=1}^L W_h \sigma_h \right)^2$$
比例配分による分散:
$$\text{Var}_{Prop} = \frac{1}{n} \sum_{h=1}^L W_h \sigma_h^2$$
一般に $\text{Var}_{Neyman} \leq \text{Var}_{Prop}$ が成り立ちます。
配分法の選択基準
配分法 | 適用条件 | 利点 | 欠点 |
---|
比例配分 | 標準偏差不明 | 簡便、無偏 | 効率性劣る |
ネイマン配分 | 標準偏差既知 | 分散最小 | 複雑、事前情報要 |
等配分 | 層比較重視 | 各層解析可 | 全体効率悪 |
実際の調査での応用
Step 6: 事前情報の入手方法
ネイマン配分に必要な層内標準偏差の推定方法:
- 過去調査:類似調査からの推定
- パイロット調査:小規模予備調査
- レジストリデータ:行政データからの推定
- 専門家判断:分野知識に基づく推定
標準偏差推定の感度分析
推定値の不確実性への対処:
σ₁の変化 | A地域配分 | 効率への影響 |
---|
15 | 28人 | やや効率低下 |
20 | 35人 | 最適 |
25 | 41人 | やや効率低下 |
Step 7: 制約条件のある配分
実際の調査では追加制約があります:
- 最小標本サイズ:各層最低5人など
- 予算制約:層別調査コストの考慮
- 調査能力:地域別の実査可能数
- 分析要求:層別推定精度の下限
修正ネイマン配分
費用を考慮した最適配分:
$$n_h \propto \frac{N_h \sigma_h}{\sqrt{c_h}}$$
ここで$c_h$は層hでの調査単価です。
配分効果の定量評価
Step 8: 効率比の計算
ネイマン配分の相対効率:
$$\text{RE} = \frac{\text{Var}_{Prop}}{\text{Var}_{Neyman}}$$
この値が1より大きいほど、ネイマン配分の優位性が高くなります。
実際のデータでは、層間の標準偏差の違いが大きいほど、ネイマン配分の効果が顕著に現れます。