標本調査法

層化抽出、集落抽出、系統抽出、ネイマン配分など、統計検定準1級レベルの標本調査法を学習します。

タイトルをここに レベル1

問題はここに

解説
解答と解説を表示

系統抽出における抽出間隔と要素番号

この問題では、系統抽出(systematic sampling)の基本的な仕組みである抽出間隔の計算と、具体的な抽出要素の決定方法を学習します。統計検定準1級でも基本的な内容です。

問題設定の整理
  • 母集団サイズ:N = 3600
  • 標本サイズ:n = 120
  • 抽出方法:系統抽出
  • 第1要素:7番目
  • 求めるもの:抽出間隔k、2番目・3番目の要素番号

Step 1: 系統抽出の基本原理

系統抽出では、母集団を順番に並べて一定間隔で要素を抽出します:

  • 抽出間隔:$k = \frac{N}{n}$
  • 開始点:1からkまでの中から無作為に選択
  • 抽出要素:開始点から間隔kで順次選択

Step 2: 抽出間隔の計算

$$k = \frac{N}{n} = \frac{3600}{120} = 30$$

したがって、抽出間隔は30です。

Step 3: 抽出される要素の決定

第1要素が7番目と決まっているので、抽出される要素は:

  • 第1要素:7
  • 第2要素:7 + 30 = 37
  • 第3要素:7 + 30×2 = 7 + 60 = 67
  • 第4要素:7 + 30×3 = 7 + 90 = 97
  • 第n要素:7 + 30×(n-1)

したがって、2番目の要素は37、3番目の要素は67です。

系統抽出の一般形

開始点をrとすると、抽出される要素は:

$$x_i = r + (i-1) \times k$$

ここで、i = 1, 2, ..., n

今回の場合:r = 7, k = 30なので

  • $x_1 = 7 + (1-1) \times 30 = 7$
  • $x_2 = 7 + (2-1) \times 30 = 37$
  • $x_3 = 7 + (3-1) \times 30 = 67$

系統抽出の特徴

Step 4: 系統抽出の利点

  • 実装の簡便性:抽出手順が単純
  • 分散効果:標本が母集団全体に分散
  • 暗黙的層化:順序に意味がある場合の効率向上
  • 実用性:現場での抽出作業が容易

Step 5: 系統抽出の注意点

  • 周期性:母集団に周期的パターンがある場合のバイアス
  • 分散推定:通常の公式が適用困難
  • 開始点依存:開始点により標本内容が完全に決まる

完全な抽出リストの例

今回の系統抽出で選ばれる全120個の要素:

順番要素番号計算式
177 + 0×30
2377 + 1×30
3677 + 2×30
4977 + 3×30
12035777 + 119×30

Step 6: 最後の要素の確認

最後の要素(第120要素):

$$x_{120} = 7 + (120-1) \times 30 = 7 + 119 \times 30 = 7 + 3570 = 3577$$

これが母集団サイズ3600以下であることを確認:3577 ≤ 3600 ✓

系統抽出の分散と効率性

Step 7: 系統抽出の分散

系統抽出の分散は一般に:

$$V(\bar{y}_{sys}) = \frac{1}{k^2} \sum_{i=1}^k V_i$$

ここで、$V_i$はi番目の系統標本の分散です。

Step 8: 単純無作為抽出との比較

効率性の比較:

  • 無相関の場合:系統抽出 ≈ 単純無作為抽出
  • 正の系列相関:系統抽出 > 単純無作為抽出(効率悪)
  • 負の系列相関:系統抽出 < 単純無作為抽出(効率良)

実際の応用例

調査対象順序の意味期待効果
住民台帳地域順地理的分散
学生名簿学籍番号順学年分散
製品検査製造順時系列分散
顧客リスト登録順時期分散

系統抽出の実装

Step 9: 実際の抽出手順

  1. 抽出間隔計算:k = N/n
  2. 開始点決定:1〜kから無作為選択
  3. 標本リスト作成:r, r+k, r+2k, ...
  4. 実際の抽出:リストに従って調査対象選択

Step 10: プログラム実装例

$$\text{抽出リスト} = \{r + i \times k : i = 0, 1, 2, ..., n-1\}$$

今回の場合:

$$\text{抽出リスト} = \{7 + i \times 30 : i = 0, 1, 2, ..., 119\}$$

系統抽出での注意事項

  • 母集団の並び順:恣意的でない適切な順序
  • 周期性チェック:k と周期の関係確認
  • 境界処理:N が n で割り切れない場合の対応
  • 代替処理:欠測や無効データの扱い

分散推定の問題

Step 11: 分散推定の困難性

系統抽出では標本が1つの系統からのみ得られるため:

  • 層内分散:推定不可能
  • 近似方法:隣接差分を利用
  • 代替方法:複数開始点や反復半抽出

Step 12: 近似分散推定

隣接差分による近似:

$$\hat{V}(\bar{y}_{sys}) = \frac{1}{2n(n-1)} \sum_{i=1}^{n-1} (y_{i+1} - y_i)^2$$

他の抽出法との比較

抽出法実装分散推定効率性実用性
単純無作為複雑容易標準
系統抽出簡単困難条件依存
層化抽出中程度容易
集落抽出簡単容易

発展的な系統抽出

Step 13: 線形系統抽出の変形

  • 円形系統抽出:リストを環状に扱う
  • 中心系統抽出:中央から開始
  • バランス系統抽出:補助変数でバランス

Step 14: 多段階系統抽出

大規模調査での組み合わせ:

  • 第1段:地域の系統抽出
  • 第2段:世帯の系統抽出
  • 第3段:個人の系統抽出

品質管理での注意点

  • 抽出枠の完全性:全要素が正確にリストアップ
  • 順序の無作為性:恣意的でない並び順
  • 代替規則:抽出不可能な場合の対応
  • 記録保持:抽出過程の詳細記録

統計ソフトウェアでの実装

Step 15: 主要ソフトでの系統抽出

  • R:sampling パッケージの systematic 関数
  • SAS:PROC SURVEYSELECT の METHOD=SYS
  • SPSS:SAMPLE コマンドの systematic オプション
  • Python:numpy を使った手動実装

結論:系統抽出の実用性

系統抽出は:

  • 簡便性:実装と実行が容易
  • 分散性:標本の地理的・時間的分散
  • 効率性:適切な条件下で高効率
  • 実用性:現場調査での高い実用性

今回の計算結果の総括

  • 抽出間隔:k = 30
  • 第2要素:37番目
  • 第3要素:67番目
  • パターン:7 + 30×(i-1) で全要素決定
問題 1/10