系統抽出における抽出間隔と要素番号
この問題では、系統抽出(systematic sampling)の基本的な仕組みである抽出間隔の計算と、具体的な抽出要素の決定方法を学習します。統計検定準1級でも基本的な内容です。
問題設定の整理
- 母集団サイズ:N = 3600
- 標本サイズ:n = 120
- 抽出方法:系統抽出
- 第1要素:7番目
- 求めるもの:抽出間隔k、2番目・3番目の要素番号
Step 1: 系統抽出の基本原理
系統抽出では、母集団を順番に並べて一定間隔で要素を抽出します:
- 抽出間隔:$k = \frac{N}{n}$
- 開始点:1からkまでの中から無作為に選択
- 抽出要素:開始点から間隔kで順次選択
Step 2: 抽出間隔の計算
$$k = \frac{N}{n} = \frac{3600}{120} = 30$$
したがって、抽出間隔は30です。
Step 3: 抽出される要素の決定
第1要素が7番目と決まっているので、抽出される要素は:
- 第1要素:7
- 第2要素:7 + 30 = 37
- 第3要素:7 + 30×2 = 7 + 60 = 67
- 第4要素:7 + 30×3 = 7 + 90 = 97
- ⋮
- 第n要素:7 + 30×(n-1)
したがって、2番目の要素は37、3番目の要素は67です。
系統抽出の一般形
開始点をrとすると、抽出される要素は:
$$x_i = r + (i-1) \times k$$
ここで、i = 1, 2, ..., n
今回の場合:r = 7, k = 30なので
- $x_1 = 7 + (1-1) \times 30 = 7$
- $x_2 = 7 + (2-1) \times 30 = 37$
- $x_3 = 7 + (3-1) \times 30 = 67$
系統抽出の特徴
Step 4: 系統抽出の利点
- 実装の簡便性:抽出手順が単純
- 分散効果:標本が母集団全体に分散
- 暗黙的層化:順序に意味がある場合の効率向上
- 実用性:現場での抽出作業が容易
Step 5: 系統抽出の注意点
- 周期性:母集団に周期的パターンがある場合のバイアス
- 分散推定:通常の公式が適用困難
- 開始点依存:開始点により標本内容が完全に決まる
完全な抽出リストの例
今回の系統抽出で選ばれる全120個の要素:
順番 | 要素番号 | 計算式 |
---|
1 | 7 | 7 + 0×30 |
2 | 37 | 7 + 1×30 |
3 | 67 | 7 + 2×30 |
4 | 97 | 7 + 3×30 |
⋮ | ⋮ | ⋮ |
120 | 3577 | 7 + 119×30 |
Step 6: 最後の要素の確認
最後の要素(第120要素):
$$x_{120} = 7 + (120-1) \times 30 = 7 + 119 \times 30 = 7 + 3570 = 3577$$
これが母集団サイズ3600以下であることを確認:3577 ≤ 3600 ✓
系統抽出の分散と効率性
Step 7: 系統抽出の分散
系統抽出の分散は一般に:
$$V(\bar{y}_{sys}) = \frac{1}{k^2} \sum_{i=1}^k V_i$$
ここで、$V_i$はi番目の系統標本の分散です。
Step 8: 単純無作為抽出との比較
効率性の比較:
- 無相関の場合:系統抽出 ≈ 単純無作為抽出
- 正の系列相関:系統抽出 > 単純無作為抽出(効率悪)
- 負の系列相関:系統抽出 < 単純無作為抽出(効率良)
実際の応用例
調査対象 | 順序の意味 | 期待効果 |
---|
住民台帳 | 地域順 | 地理的分散 |
学生名簿 | 学籍番号順 | 学年分散 |
製品検査 | 製造順 | 時系列分散 |
顧客リスト | 登録順 | 時期分散 |
系統抽出の実装
Step 9: 実際の抽出手順
- 抽出間隔計算:k = N/n
- 開始点決定:1〜kから無作為選択
- 標本リスト作成:r, r+k, r+2k, ...
- 実際の抽出:リストに従って調査対象選択
Step 10: プログラム実装例
$$\text{抽出リスト} = \{r + i \times k : i = 0, 1, 2, ..., n-1\}$$
今回の場合:
$$\text{抽出リスト} = \{7 + i \times 30 : i = 0, 1, 2, ..., 119\}$$
系統抽出での注意事項
- 母集団の並び順:恣意的でない適切な順序
- 周期性チェック:k と周期の関係確認
- 境界処理:N が n で割り切れない場合の対応
- 代替処理:欠測や無効データの扱い
分散推定の問題
Step 11: 分散推定の困難性
系統抽出では標本が1つの系統からのみ得られるため:
- 層内分散:推定不可能
- 近似方法:隣接差分を利用
- 代替方法:複数開始点や反復半抽出
Step 12: 近似分散推定
隣接差分による近似:
$$\hat{V}(\bar{y}_{sys}) = \frac{1}{2n(n-1)} \sum_{i=1}^{n-1} (y_{i+1} - y_i)^2$$
他の抽出法との比較
抽出法 | 実装 | 分散推定 | 効率性 | 実用性 |
---|
単純無作為 | 複雑 | 容易 | 標準 | 中 |
系統抽出 | 簡単 | 困難 | 条件依存 | 高 |
層化抽出 | 中程度 | 容易 | 高 | 中 |
集落抽出 | 簡単 | 容易 | 低 | 高 |
発展的な系統抽出
Step 13: 線形系統抽出の変形
- 円形系統抽出:リストを環状に扱う
- 中心系統抽出:中央から開始
- バランス系統抽出:補助変数でバランス
Step 14: 多段階系統抽出
大規模調査での組み合わせ:
- 第1段:地域の系統抽出
- 第2段:世帯の系統抽出
- 第3段:個人の系統抽出
品質管理での注意点
- 抽出枠の完全性:全要素が正確にリストアップ
- 順序の無作為性:恣意的でない並び順
- 代替規則:抽出不可能な場合の対応
- 記録保持:抽出過程の詳細記録
統計ソフトウェアでの実装
Step 15: 主要ソフトでの系統抽出
- R:sampling パッケージの systematic 関数
- SAS:PROC SURVEYSELECT の METHOD=SYS
- SPSS:SAMPLE コマンドの systematic オプション
- Python:numpy を使った手動実装
結論:系統抽出の実用性
系統抽出は:
- 簡便性:実装と実行が容易
- 分散性:標本の地理的・時間的分散
- 効率性:適切な条件下で高効率
- 実用性:現場調査での高い実用性
今回の計算結果の総括
- 抽出間隔:k = 30
- 第2要素:37番目
- 第3要素:67番目
- パターン:7 + 30×(i-1) で全要素決定