系統抽出における抽出間隔と要素番号
この問題では、系統抽出(systematic sampling)の基本的な仕組みである抽出間隔の計算と、具体的な抽出要素の決定方法を学習します。統計検定準1級でも基本的な内容です。
問題設定の整理
- 母集団サイズ:N = 3600
- 標本サイズ:n = 120
- 抽出方法:系統抽出
- 第1要素:7番目
- 求めるもの:抽出間隔k、2番目・3番目の要素番号
Step 1: 系統抽出の基本原理
系統抽出では、母集団を順番に並べて一定間隔で要素を抽出します:
- 抽出間隔:$k = \frac{N}{n}$
- 開始点:1からkまでの中から無作為に選択
- 抽出要素:開始点から間隔kで順次選択
Step 2: 抽出間隔の計算
$k = \frac{N}{n} = \frac{3600}{120} = 30$
したがって、抽出間隔は30です。
Step 3: 抽出される要素の決定
第1要素が7番目と決まっているので、抽出される要素は:
- 第1要素:7
- 第2要素:7 + 30 = 37
- 第3要素:7 + 30×2 = 7 + 60 = 67
- 第4要素:7 + 30×3 = 7 + 90 = 97
- ⋮
- 第n要素:7 + 30×(n-1)
したがって、2番目の要素は37、3番目の要素は67です。
系統抽出の一般形
開始点をrとすると、抽出される要素は:
$x_i = r + (i-1) \times k$
ここで、i = 1, 2, ..., n
今回の場合:r = 7, k = 30なので
- $x_1 = 7 + (1-1) \times 30 = 7$
- $x_2 = 7 + (2-1) \times 30 = 37$
- $x_3 = 7 + (3-1) \times 30 = 67$
系統抽出の特徴
Step 4: 系統抽出の利点
- 実装の簡便性:抽出手順が単純
- 分散効果:標本が母集団全体に分散
- 暗黙的層化:順序に意味がある場合の効率向上
- 実用性:現場での抽出作業が容易
Step 5: 系統抽出の注意点
- 周期性:母集団に周期的パターンがある場合のバイアス
- 分散推定:通常の公式が適用困難
- 開始点依存:開始点により標本内容が完全に決まる
完全な抽出リストの例
今回の系統抽出で選ばれる全120個の要素:
| 順番 | 要素番号 | 計算式 |
|---|
| 1 | 7 | 7 + 0×30 |
| 2 | 37 | 7 + 1×30 |
| 3 | 67 | 7 + 2×30 |
| 4 | 97 | 7 + 3×30 |
| ⋮ | ⋮ | ⋮ |
| 120 | 3577 | 7 + 119×30 |
Step 6: 最後の要素の確認
最後の要素(第120要素):
$x_{120} = 7 + (120-1) \times 30 = 7 + 119 \times 30 = 7 + 3570 = 3577$
これが母集団サイズ3600以下であることを確認:3577 ≤ 3600 ✓
系統抽出の分散と効率性
Step 7: 系統抽出の分散
系統抽出の分散は一般に:
$V(\bar{y}_{sys}) = \frac{1}{k^2} \sum_{i=1}^k V_i$
ここで、$V_i$はi番目の系統標本の分散です。
Step 8: 単純無作為抽出との比較
効率性の比較:
- 無相関の場合:系統抽出 ≈ 単純無作為抽出
- 正の系列相関:系統抽出 > 単純無作為抽出(効率悪)
- 負の系列相関:系統抽出 < 単純無作為抽出(効率良)