系統抽出の設計と精度評価
系統抽出は実用的で効率的な抽出方法ですが、母集団に周期性や傾向がある場合の精度評価が重要です。この問題では線形トレンドがある場合の分散計算を行います。
問題設定の整理
- 母集団サイズ:N = 1500
- 抽出間隔:k = 15
- 標本サイズ:n = N/k = 1500/15 = 100
- 線形トレンド:y_i = 10 + 0.02×i + e_i
- 誤差項:e_i ~ N(0, 4)
Step 1: 系統抽出の基本原理
系統抽出では、最初の要素をランダムに選び(1からkの間)、その後k間隔で抽出します:
$\text{抽出される要素} = r, r+k, r+2k, ..., r+(n-1)k$
ここで、r は 1 ≤ r ≤ k の範囲でランダムに選ばれる開始点です。
Step 2: 線形トレンド下での系統抽出
母集団の値が $y_i = 10 + 0.02 \times i + e_i$ で表される場合:
$\bar{y}_{sys} = \frac{1}{n} \sum_{j=0}^{n-1} y_{r+jk}$
$= \frac{1}{n} \sum_{j=0}^{n-1} [10 + 0.02(r+jk) + e_{r+jk}]$
$= 10 + 0.02\left(r + k\frac{n-1}{2}\right) + \frac{1}{n}\sum_{j=0}^{n-1} e_{r+jk}$
Step 3: 標本平均の期待値
rが1からkまで等確率で選ばれるため:
$E[\bar{y}_{sys}] = 10 + 0.02\left(\frac{k+1}{2} + k\frac{n-1}{2}\right)$
$= 10 + 0.02 \times \frac{k+1 + k(n-1)}{2}$
$= 10 + 0.02 \times \frac{k + kn - k + 1}{2} = 10 + 0.02 \times \frac{kn + 1}{2}$
k = 15, n = 100を代入:
$E[\bar{y}_{sys}] = 10 + 0.02 \times \frac{1500 + 1}{2} = 10 + 0.02 \times 750.5 = 25.01$
Step 4: 母集団平均の計算
母集団全体の平均:
$\mu = \frac{1}{N}\sum_{i=1}^{N} y_i = \frac{1}{N}\sum_{i=1}^{N} [10 + 0.02i + e_i]$
$= 10 + 0.02 \times \frac{N+1}{2} + 0$
$= 10 + 0.02 \times \frac{1501}{2} = 10 + 15.01 = 25.01$
したがって、$E[\bar{y}_{sys}] = \mu$ で不偏推定量です。
Step 5: 分散の計算
系統抽出の分散は:
$Var[\bar{y}_{sys}] = E[Var[\bar{y}_{sys}|r]] + Var[E[\bar{y}_{sys}|r]]$
第1項(rが固定された時の条件付き分散):
$E[Var[\bar{y}_{sys}|r]] = E\left[\frac{1}{n^2}\sum_{j=0}^{n-1} Var[e_{r+jk}]\right] = \frac{\sigma^2}{n} = \frac{4}{100} = 0.04$
第2項(rによる変動):
$Var[E[\bar{y}_{sys}|r]] = Var\left[10 + 0.02\left(r + k\frac{n-1}{2}\right)\right]$
$= (0.02)^2 \times Var[r] = 0.0004 \times \frac{k^2-1}{12}$
k = 15の場合:
$Var[r] = \frac{15^2-1}{12} = \frac{224}{12} = 18.67$
$Var[E[\bar{y}_{sys}|r]] = 0.0004 \times 18.67 = 0.0075$
Step 6: 総分散の計算
$Var[\bar{y}_{sys}] = 0.04 + 0.0075 = 0.0475$