事後層化による推定精度の改善
この問題では、抽出後に判明した層化情報を利用して推定精度を向上させる事後層化推定法を学習します。事前に層化できなかった場合でも、事後的に精度改善が可能な実用的手法です。
問題設定の整理
- 母集団構成:男性60%、女性40%
- 標本サイズ:n = 500
- 標本構成:男性250人(50%)、女性250人(50%)
- 標本平均:男性 $\bar{y}_1 = 15.0$、女性 $\bar{y}_2 = 12.0$
Step 1: 事後層化推定量の定義
事後層化推定量による母平均の推定値は:
$$\hat{\bar{Y}}_{post} = \sum_{h=1}^L W_h \bar{y}_h$$
ここで:
- $\hat{\bar{Y}}_{post}$:事後層化推定量
- $W_h$:第h層の母集団における重み(既知)
- $\bar{y}_h$:第h層の標本平均
- $L$:層数(この場合2)
Step 2: 各層の重みの確認
- 男性の重み:$W_1 = 0.6$(母集団の60%)
- 女性の重み:$W_2 = 0.4$(母集団の40%)
- 男性の標本平均:$\bar{y}_1 = 15.0$
- 女性の標本平均:$\bar{y}_2 = 12.0$
Step 3: 事後層化推定量の計算
$$\hat{\bar{Y}}_{post} = W_1 \bar{y}_1 + W_2 \bar{y}_2$$
$$= 0.6 \times 15.0 + 0.4 \times 12.0$$
$$= 9.0 + 4.8 = 13.8$$
したがって、事後層化推定量による母平均の推定値は13.8です。
単純推定量との比較
単純推定量(層化情報を使わない場合):
$$\hat{\bar{Y}}_{simple} = \frac{250 \times 15.0 + 250 \times 12.0}{500} = \frac{3750 + 3000}{500} = \frac{6750}{500} = 13.5$$
差:$13.8 - 13.5 = 0.3$
事後層化により推定値が調整されています。
事後層化の効果分析
Step 4: 標本構成の偏りの評価
標本構成と母集団構成の比較:
層 | 母集団比率 | 標本比率 | 偏り |
---|
男性 | 60% | 50% | -10%pt |
女性 | 40% | 50% | +10%pt |
男性が過少抽出、女性が過大抽出されています。
Step 5: 調整効果の計算
各層への調整:
- 男性:重み増加 $(0.6 - 0.5) = +0.1$、平均15.0
- 女性:重み減少 $(0.4 - 0.5) = -0.1$、平均12.0
調整による変化:
$$\Delta = (+0.1) \times 15.0 + (-0.1) \times 12.0 = 1.5 - 1.2 = 0.3$$
これが単純推定量からの変化分0.3と一致します。
事後層化の分散削減効果
事後層化推定量の分散は:
$$V(\hat{\bar{Y}}_{post}) = \sum_{h=1}^L W_h^2 \frac{(1-f_h)}{n_h} S_{yh}^2$$
単純推定量の分散は:
$$V(\hat{\bar{Y}}_{simple}) = \frac{(1-f)}{n} S_y^2$$
ここで、$S_y^2 = \sum_{h=1}^L W_h S_{yh}^2 + \sum_{h=1}^L W_h (\bar{Y}_h - \bar{Y})^2$
Step 6: 層間分散による効率性向上
層間分散が大きいほど事後層化の効果が高くなります:
$$\text{層間分散} = \sum_{h=1}^L W_h (\bar{Y}_h - \bar{Y})^2$$
推定された層間効果:
- 男性効果:$15.0 - 13.8 = +1.2$
- 女性効果:$12.0 - 13.8 = -1.8$
層間で明確な差があるため、事後層化が有効です。
実用上の考慮事項
状況 | 対応 | 注意点 |
---|
小標本層 | 層統合を検討 | 推定精度低下 |
未知の層 | 調査票で収集 | 回答負担増 |
複数層化 | 交差分類で実施 | 空セル問題 |
連続変数層化 | 区間分割が必要 | 区切り点の選択 |
事後層化の実装方法
Step 7: 重み調整の実際
各標本に対する重み:
- 男性標本:重み = $\frac{W_1}{n_1/n} = \frac{0.6}{250/500} = \frac{0.6}{0.5} = 1.2$
- 女性標本:重み = $\frac{W_2}{n_2/n} = \frac{0.4}{250/500} = \frac{0.4}{0.5} = 0.8$
重み付き平均:
$$\hat{\bar{Y}}_{post} = \frac{250 \times 15.0 \times 1.2 + 250 \times 12.0 \times 0.8}{250 \times 1.2 + 250 \times 0.8}$$
$$= \frac{4500 + 2400}{300 + 200} = \frac{6900}{500} = 13.8$$
Step 8: ソフトウェアでの実装
統計ソフトでの一般的な手順:
- 重み変数作成:各標本に層別重みを付与
- 重み付き分析:survey weightingオプション使用
- 分散推定:適切な分散推定式を適用
- 信頼区間:調整された標準誤差で計算
事後層化の適用例
調査種類 | 層化変数 | 期待効果 | 実装の容易さ |
---|
世論調査 | 年齢・性別 | 大 | 高 |
消費者調査 | 地域・収入 | 中 | 中 |
企業調査 | 業種・規模 | 大 | 高 |
健康調査 | 年齢・疾患 | 中 | 中 |
高度な事後層化手法
Step 9: レーキング法(反復比例調整)
複数の周辺分布が既知の場合:
- 第1変数で重み調整
- 第2変数で重み調整
- 収束まで反復
最終重みは複数制約を同時に満たします。
Step 10: 一般化回帰推定(GREG)
連続的な補助変数も含める場合:
$$\hat{\bar{Y}}_{GREG} = \hat{\bar{Y}}_{simple} + (\bar{X} - \hat{\bar{X}})^T \hat{\beta}$$
ここで、$\hat{\beta}$は回帰係数です。
事後層化の限界と注意点
- 選択バイアス:無回答が層化変数と関連する場合
- 測定誤差:層化変数自体に誤差がある場合
- 外部情報の質:母集団分布の正確性への依存
- 過度の重み:極端な重み値による分散増加
品質管理と検証
Step 11: 重みの診断
重みの分布をチェック:
- 重みの範囲:極端な値(0.5未満、2.0超過)の確認
- 重みの分散:$\text{CV}(w) = \frac{\text{sd}(w)}{\text{mean}(w)}$
- 有効標本サイズ:$n_{eff} = \frac{(\sum w_i)^2}{\sum w_i^2}$
今回の場合:重み分散 = 0.2、有効標本サイズ ≈ 480
Step 12: 推定精度の評価
事後層化の効果測定:
$$\text{効率性} = \frac{V(\hat{\bar{Y}}_{simple})}{V(\hat{\bar{Y}}_{post})}$$
層間分散が大きい場合、この比は1を大きく上回ります。
今回の計算結果の解釈
- 事後層化推定値:13.8
- 調整効果:+0.3(単純推定量比)
- 偏り補正:性別構成の偏りを適切に調整
- 実装簡便性:基本的な重み付け平均で実現