系統抽出における抽出間隔とサンプル選択
系統抽出は実査において最も実用的な抽出方法の一つです。一定間隔での抽出により、母集団全体から均等に分散したサンプルを取得できます。
問題設定の整理
- 母集団サイズ:N = 2400
- 目標標本サイズ:n = 150
- ランダムスタート:8番目
- 求める値:抽出間隔k、5番目の要素番号
Step 1: 抽出間隔の計算
系統抽出の抽出間隔kは:
$$k = \frac{N}{n} = \frac{2400}{150} = 16$$
したがって、抽出間隔k = 16です。
Step 2: 系統抽出の仕組み
系統抽出では以下の手順で標本を選択します:
- 抽出間隔k = N/nを計算
- 1からkまでの範囲でランダムスタートrを選択
- r, r+k, r+2k, r+3k, ... の要素を抽出
今回の場合:ランダムスタートr = 8
Step 3: 抽出される要素番号の計算
一般的に、i番目に抽出される要素の番号は:
$$x_i = r + (i-1) \times k$$
各要素の番号:
$$x_1 = 8 + (1-1) \times 16 = 8$$
$$x_2 = 8 + (2-1) \times 16 = 8 + 16 = 24$$
$$x_3 = 8 + (3-1) \times 16 = 8 + 32 = 40$$
$$x_4 = 8 + (4-1) \times 16 = 8 + 48 = 56$$
$$x_5 = 8 + (5-1) \times 16 = 8 + 64 = 72$$
したがって、5番目に選ばれる要素番号は72です。
系統抽出の特徴
項目 | 内容 | 利点・特徴 |
---|
実施の簡便性 | 機械的抽出 | ヒューマンエラー防止 |
分散性 | 均等分散 | 代表性の向上 |
管理効率 | 予測可能 | 調査計画の立案が容易 |
費用効率 | 低コスト | 複雑な抽出設計不要 |
系統抽出の効率性と注意点
Step 4: 母集団の順序性の影響
系統抽出の効率は母集団リストの順序に依存します:
- ランダム順序:単純無作為抽出と同等の効率
- 単調増減:効率向上(層化効果)
- 周期的変動:効率悪化の可能性
- 地理的順序:空間的代表性向上
周期性問題の例
母集団に周期性がある場合の注意:
状況 | 周期 | 抽出間隔 | 問題 |
---|
住宅調査 | 10戸(角地効果) | 10 | 角地のみ選択 |
時系列データ | 7日(曜日) | 7 | 同一曜日のみ |
製造業調査 | 8時間(シフト) | 8 | 同一シフトのみ |
Step 5: 端数処理の対応
N/nが整数でない場合の処理方法:
$$\frac{N}{n} = \frac{2400}{150} = 16.0 \text{(整数)}$$
今回は整数なので問題ありませんが、一般的な処理方法:
- 切り下げ:k = ⌊N/n⌋ → 標本サイズ増加
- 切り上げ:k = ⌈N/n⌉ → 標本サイズ減少
- 調整:母集団サイズを微調整
実際の標本サイズの確認
最後に抽出される要素番号:
$$x_{150} = 8 + (150-1) \times 16 = 8 + 2384 = 2392$$
2392 ≤ 2400なので、150個すべての標本を取得可能です。
系統抽出の分散特性
Step 6: 分散の理論的性質
母集団が順序付けられている場合の分散:
$$\text{Var}_{sys} \leq \text{Var}_{srs}$$
特に、線形トレンドがある場合:
$$\text{Var}_{sys} \approx \frac{\text{Var}_{srs}}{3}$$
大幅な効率向上が期待できます。
系統抽出 vs 他の抽出法
抽出法 | 実施の簡便性 | 統計的効率 | 適用場面 |
---|
単純無作為 | 中 | 基準 | 理論研究 |
系統抽出 | 高 | 同等以上 | 実地調査 |
層化抽出 | 中 | 高 | 精度重視 |
集落抽出 | 高 | 低 | 費用制約 |
実務における応用と注意点
Step 7: 実際の調査での適用
- 電話調査:電話番号の系統抽出
- 住民調査:住民基本台帳からの抽出
- 企業調査:企業名簿からの抽出
- 出口調査:投票所での定間隔抽出
Step 8: 品質管理のポイント
- ランダムスタート:真の乱数の使用
- リスト完全性:母集団リストの網羅性確認
- 順序性検証:リスト順序の偏りチェック
- 代替手法:周期性発見時の対応策準備
系統抽出の計算確認
今回の例での最終確認:
- 抽出間隔:k = 16
- 標本サイズ:150個
- カバー範囲:1番から2400番まで
- 5番目要素:72番