事後層化による推定精度の改善
この問題では、抽出後に判明した層化情報を利用して推定精度を向上させる事後層化推定法を学習します。事前に層化できなかった場合でも、事後的に精度改善が可能な実用的手法です。
問題設定の整理
- 母集団構成:男性60%、女性40%
- 標本サイズ:n = 500
- 標本構成:男性250人(50%)、女性250人(50%)
- 標本平均:男性 $\bar{y}_1 = 15.0$、女性 $\bar{y}_2 = 12.0$
Step 1: 事後層化推定量の定義
事後層化推定量による母平均の推定値は:
$\hat{\bar{Y}}_{post} = \sum_{h=1}^L W_h \bar{y}_h$
ここで:
- $\hat{\bar{Y}}_{post}$:事後層化推定量
- $W_h$:第h層の母集団における重み(既知)
- $\bar{y}_h$:第h層の標本平均
- $L$:層数(この場合2)
Step 2: 各層の重みの確認
- 男性の重み:$W_1 = 0.6$(母集団の60%)
- 女性の重み:$W_2 = 0.4$(母集団の40%)
- 男性の標本平均:$\bar{y}_1 = 15.0$
- 女性の標本平均:$\bar{y}_2 = 12.0$
Step 3: 事後層化推定量の計算
$\hat{\bar{Y}}_{post} = W_1 \bar{y}_1 + W_2 \bar{y}_2$
$= 0.6 \times 15.0 + 0.4 \times 12.0$
$= 9.0 + 4.8 = 13.8$
したがって、事後層化推定量による母平均の推定値は13.8です。
単純推定量との比較
単純推定量(層化情報を使わない場合):
$\hat{\bar{Y}}_{simple} = \frac{250 \times 15.0 + 250 \times 12.0}{500} = \frac{3750 + 3000}{500} = \frac{6750}{500} = 13.5$
差:$13.8 - 13.5 = 0.3$
事後層化により推定値が調整されています。
事後層化の効果分析
Step 4: 標本構成の偏りの評価
標本構成と母集団構成の比較:
| 層 | 母集団比率 | 標本比率 | 偏り |
|---|
| 男性 | 60% | 50% | -10%pt |
| 女性 | 40% | 50% | +10%pt |
男性が過少抽出、女性が過大抽出されています。
Step 5: 調整効果の計算
各層への調整:
- 男性:重み増加 $(0.6 - 0.5) = +0.1$、平均15.0
- 女性:重み減少 $(0.4 - 0.5) = -0.1$、平均12.0
調整による変化:
$\Delta = (+0.1) \times 15.0 + (-0.1) \times 12.0 = 1.5 - 1.2 = 0.3$
これが単純推定量からの変化分0.3と一致します。
事後層化の分散削減効果
事後層化推定量の分散は:
$V(\hat{\bar{Y}}_{post}) = \sum_{h=1}^L W_h^2 \frac{(1-f_h)}{n_h} S_{yh}^2$
単純推定量の分散は:
$V(\hat{\bar{Y}}_{simple}) = \frac{(1-f)}{n} S_y^2$
ここで、$S_y^2 = \sum_{h=1}^L W_h S_{yh}^2 + \sum_{h=1}^L W_h (\bar{Y}_h - \bar{Y})^2$
Step 6: 層間分散による効率性向上
層間分散が大きいほど事後層化の効果が高くなります:
$\text{層間分散} = \sum_{h=1}^L W_h (\bar{Y}_h - \bar{Y})^2$
推定された層間効果:
- 男性効果:$15.0 - 13.8 = +1.2$
- 女性効果:$12.0 - 13.8 = -1.8$
層間で明確な差があるため、事後層化が有効です。
実用上の考慮事項
| 状況 | 対応 | 注意点 |
|---|
| 小標本層 | 層統合を検討 | 推定精度低下 |
| 未知の層 | 調査票で収集 | 回答負担増 |
| 複数層化 | 交差分類で実施 | 空セル問題 |
| 連続変数層化 | 区間分割が必要 | 区切り点の選択 |
事後層化の実装方法
Step 7: 重み調整の実際
各標本に対する重み:
- 男性標本:重み = $\frac{W_1}{n_1/n} = \frac{0.6}{250/500} = \frac{0.6}{0.5} = 1.2$
- 女性標本:重み = $\frac{W_2}{n_2/n} = \frac{0.4}{250/500} = \frac{0.4}{0.5} = 0.8$
重み付き平均:
$\hat{\bar{Y}}_{post} = \frac{250 \times 15.0 \times 1.2 + 250 \times 12.0 \times 0.8}{250 \times 1.2 + 250 \times 0.8}$
$= \frac{4500 + 2400}{300 + 200} = \frac{6900}{500} = 13.8$