系統抽出における抽出間隔とサンプル選択
系統抽出は実査において最も実用的な抽出方法の一つです。一定間隔での抽出により、母集団全体から均等に分散したサンプルを取得できます。
問題設定の整理
- 母集団サイズ:N = 2400
- 目標標本サイズ:n = 150
- ランダムスタート:8番目
- 求める値:抽出間隔k、5番目の要素番号
Step 1: 抽出間隔の計算
系統抽出の抽出間隔kは:
$k = \frac{N}{n} = \frac{2400}{150} = 16$
したがって、抽出間隔k = 16です。
Step 2: 系統抽出の仕組み
系統抽出では以下の手順で標本を選択します:
- 抽出間隔k = N/nを計算
- 1からkまでの範囲でランダムスタートrを選択
- r, r+k, r+2k, r+3k, ... の要素を抽出
今回の場合:ランダムスタートr = 8
Step 3: 抽出される要素番号の計算
一般的に、i番目に抽出される要素の番号は:
$x_i = r + (i-1) \times k$
各要素の番号:
$x_1 = 8 + (1-1) \times 16 = 8$
$x_2 = 8 + (2-1) \times 16 = 8 + 16 = 24$
$x_3 = 8 + (3-1) \times 16 = 8 + 32 = 40$
$x_4 = 8 + (4-1) \times 16 = 8 + 48 = 56$
$x_5 = 8 + (5-1) \times 16 = 8 + 64 = 72$
したがって、5番目に選ばれる要素番号は72です。
系統抽出の特徴
| 項目 | 内容 | 利点・特徴 |
|---|
| 実施の簡便性 | 機械的抽出 | ヒューマンエラー防止 |
| 分散性 | 均等分散 | 代表性の向上 |
| 管理効率 | 予測可能 | 調査計画の立案が容易 |
| 費用効率 | 低コスト | 複雑な抽出設計不要 |
系統抽出の効率性と注意点
Step 4: 母集団の順序性の影響
系統抽出の効率は母集団リストの順序に依存します:
- ランダム順序:単純無作為抽出と同等の効率
- 単調増減:効率向上(層化効果)
- 周期的変動:効率悪化の可能性
- 地理的順序:空間的代表性向上
周期性問題の例
母集団に周期性がある場合の注意:
| 状況 | 周期 | 抽出間隔 | 問題 |
|---|
| 住宅調査 | 10戸(角地効果) | 10 | 角地のみ選択 |
| 時系列データ | 7日(曜日) | 7 | 同一曜日のみ |
| 製造業調査 | 8時間(シフト) | 8 | 同一シフトのみ |
Step 5: 端数処理の対応
N/nが整数でない場合の処理方法:
$\frac{N}{n} = \frac{2400}{150} = 16.0 \text{(整数)}$
今回は整数なので問題ありませんが、一般的な処理方法:
- 切り下げ:k = ⌊N/n⌋ → 標本サイズ増加
- 切り上げ:k = ⌈N/n⌉ → 標本サイズ減少
- 調整:母集団サイズを微調整
実際の標本サイズの確認
最後に抽出される要素番号:
$x_{150} = 8 + (150-1) \times 16 = 8 + 2384 = 2392$
2392 ≤ 2400なので、150個すべての標本を取得可能です。
系統抽出の分散特性
Step 6: 分散の理論的性質
母集団が順序付けられている場合の分散:
$\text{Var}_{sys} \leq \text{Var}_{srs}$
特に、線形トレンドがある場合:
$\text{Var}_{sys} \approx \frac{\text{Var}_{srs}}{3}$
大幅な効率向上が期待できます。
系統抽出 vs 他の抽出法
| 抽出法 | 実施の簡便性 | 統計的効率 | 適用場面 |
|---|
| 単純無作為 | 中 | 基準 | 理論研究 |
| 系統抽出 | 高 | 同等以上 | 実地調査 |
| 層化抽出 | 中 | 高 | 精度重視 |
| 集落抽出 | 高 | 低 | 費用制約 |