標本調査問題6 - 青の統計学-DS Playground-

タイトルをここにレベル1

問題はここに

解説

解答と解説を表示

推定精度に基づくサンプルサイズ設計

この問題では、指定された推定精度を達成するために必要な標本サイズを計算します。比率の推定における標準誤差の制御は、調査の信頼性確保において重要な考慮事項です。

問題設定の整理

母集団比率：p = 0.4
要求精度：標準誤差 ≤ 0.02
抽出方法：単純無作為抽出
母集団サイズ：無限（または十分大きい）と仮定

Step 1: 標本比率の標準誤差の公式

単純無作為抽出における標本比率$\hat{p}$の標準誤差は：

$$SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}}$$

ここで：

$p$：母集団比率
$n$：標本サイズ
$\hat{p}$：標本比率

Step 2: 要求条件の設定

標準誤差を0.02以下にする条件：

$$\sqrt{\frac{p(1-p)}{n}} \leq 0.02$$

p = 0.4を代入：

$$\sqrt{\frac{0.4 \times 0.6}{n}} \leq 0.02$$

$$\sqrt{\frac{0.24}{n}} \leq 0.02$$

Step 3: 必要標本サイズの計算

不等式を解くため両辺を二乗：

$$\frac{0.24}{n} \leq (0.02)^2 = 0.0004$$

nについて解く：

$$n \geq \frac{0.24}{0.0004} = 600$$

したがって、最低600個の標本が必要です。

Step 4: 結果の確認

n = 600のときの実際の標準誤差：

$$SE(\hat{p}) = \sqrt{\frac{0.4 \times 0.6}{600}} = \sqrt{\frac{0.24}{600}} = \sqrt{0.0004} = 0.02$$

✓ 要求される0.02以下を満たしています。

比率のサンプルサイズ一般公式

一般的に、標準誤差をE以下にしたい場合：

$$n \geq \frac{p(1-p)}{E^2}$$

今回の場合：

$$n \geq \frac{0.4 \times 0.6}{(0.02)^2} = \frac{0.24}{0.0004} = 600$$

母集団比率が未知の場合の対応

Step 5: 保守的なサンプルサイズ設計

母集団比率pが未知の場合、$p(1-p)$を最大化する$p = 0.5$を使用：

$$n \geq \frac{0.5 \times 0.5}{(0.02)^2} = \frac{0.25}{0.0004} = 625$$

この場合、625個の標本が必要となります。

比率と標本サイズの関係

母集団比率p	p(1-p)	必要標本サイズ
0.1	0.09	225
0.2	0.16	400
0.3	0.21	525
0.4	0.24	600
0.5	0.25	625（最大）

Step 6: 信頼区間との関係

95%信頼区間の半幅は約$1.96 \times SE(\hat{p})$なので：

$$\text{半幅} = 1.96 \times 0.02 = 0.0392 \approx 0.04$$

つまり、標本比率の95%信頼区間の幅は約0.08（8%ポイント）となります。

精度要求と標本サイズの関係

標準誤差の要求	必要標本サイズ（p=0.4）	95%CI半幅
0.01	2,400	±2.0%
0.02	600	±3.9%
0.03	267	±5.9%
0.05	96	±9.8%

実際の調査での考慮事項

Step 7: 有限母集団修正の考慮

母集団サイズNが既知で比較的小さい場合：

$$SE(\hat{p}) = \sqrt{\frac{p(1-p)}{n}} \times \sqrt{\frac{N-n}{N-1}}$$

例えば、N = 3000の場合：

$$n \geq \frac{Np(1-p)}{(N-1)E^2 + p(1-p)}$$

$$n \geq \frac{3000 \times 0.24}{2999 \times 0.0004 + 0.24} = \frac{720}{1.4396} ≈ 500$$

有限母集団修正により必要標本サイズが減少します。

調査実施での実用的調整

考慮事項	調整係数	調整後標本サイズ
無回答率20%	÷0.8	750
集落効果1.5	×1.5	900
両方考慮	×1.5÷0.8	1,125

Step 8: 多項目調査での考慮

複数の比率を同時に推定する場合：

最も厳しい条件：最大の標本サイズを採用
主要項目優先：最重要項目の精度を優先
複合指標：複数項目の組み合わせ精度
事後層化：分析時の重み付け調整

設計効果の考慮

複雑な標本設計の場合、設計効果（deff）を考慮：

$$n_{実際} = n_{理論} \times \text{deff}$$

単純無作為抽出：deff = 1.0
層化抽出：deff = 0.8-1.2
集落抽出：deff = 1.5-3.0
多段抽出：deff = 2.0-4.0

統計的検定との関係

Step 9: 仮説検定における検出力

比率の差の検定における検出力計算では、より複雑な公式が必要：

$$n = \frac{(Z_{\alpha/2} + Z_\beta)^2 [p_1(1-p_1) + p_2(1-p_2)]}{(p_1 - p_2)^2}$$

推定精度とは異なる観点からのサンプルサイズ決定となります。

標本調査法