点推定と区間推定

Stage 4 — 第2章| 統計学基礎カリキュラム推定学習時間：50〜60分 | 難易度：★★★★☆

この章で学ぶこと

標本から母集団のパラメータ（母平均・母比率など）を推定する方法を学びます。推定には「1つの値で答える」点推定と「幅で答える」区間推定の2種類があります。

この章を終えると、こんなことができるようになります：

点推定量の望ましい性質（不偏性・一致性）を説明できる
信頼区間の正しい意味を説明できる（よくある誤解を避けられる）
母平均の信頼区間を $\sigma$ 既知・未知の両方で計算できる
母比率の信頼区間を計算できる
標本サイズと信頼区間の幅の関係を説明できる

1. 点推定

1.1 推定量と推定値

母集団のパラメータ $\theta$（母平均 $\mu$、母分散 $\sigma^2$ など）を、標本から計算した1つの値で推定することを点推定（point estimation）といいます。

推定量（estimator）：推定のために使う統計量（確率変数）。例：$\bar{X}$
推定値（estimate）：実際のデータから計算した具体的な値。例：$\bar{x} = 172.3$

同じ推定量でも、取り出す標本によって推定値は変わります。

1.2 よい推定量の性質

すべての推定量が同じように「よい」わけではありません。代表的な基準を2つ示します。

不偏性（Unbiasedness）：

E[\hat{\theta}] = \theta

推定量の期待値が真のパラメータと一致する性質。「平均的に当たっている」。

標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量です（前章で確認済み）。標本分散 $s^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2$ は母分散 $\sigma^2$ の不偏推定量です（$n-1$ で割る理由）。

一致性（Consistency）：

\hat{\theta} \xrightarrow{n \to \infty} \theta

標本サイズを大きくするほど、推定量が真の値に近づく性質。大数の法則により $\bar{X}$ は一致性を持ちます。

📘 補足：有効性（Efficiency）

同じパラメータの不偏推定量が複数ある場合、分散が最小のものが最も「効率よい」推定量です。

例えば、母平均の不偏推定量として標本平均 $\bar{X}$ と標本中央値 $\tilde{X}$ の両方が使えますが、正規母集団では $\bar{X}$ のほうが分散が小さく、より有効な推定量です。

「不偏かつ分散最小」の推定量をUMVUE（Uniformly Minimum Variance Unbiased Estimator）と呼び、推定理論の目標の一つです。

2. 区間推定と信頼区間

関連教材（青の統計学）

統計的推定（動画）

標準誤差（動画）

信頼区間と信用区間の違いをわかりやすく解説（記事）

2.1 なぜ区間で推定するか

点推定は1つの値を与えますが、「どれくらい信頼できるか」という情報がありません。区間推定では「真の値がこの幅の中に入っている」という区間を提示します。

信頼区間（Confidence Interval, CI）：

信頼係数（信頼水準）$1 - \alpha$（例：95%）で、真のパラメータ $\theta$ が含まれると期待される区間。

2.2 信頼区間の正しい解釈

よくある誤解：「95%信頼区間とは、真の値が95%の確率でこの区間に入っている」

正しい解釈： 真の $\mu$（母平均）は固定した値であって、確率的に動くものではありません。「95%信頼区間」とは、「同じ手順で標本を取り直して区間を100回作ると、そのうち約95回が真の $\mu$ を含む」という意味です。

特定の1つの区間について「真の値が95%の確率でここに入る」とは言えません。特定の区間は真の値を含むか含まないかのどちらかです。

[図1] 信頼区間の意味

3. 母平均の区間推定（$\sigma$ 既知）

母標準偏差 $\sigma$ が既知のとき、CLT より：

Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)

信頼係数 $1 - \alpha$ の信頼区間を求めます。上側 $\alpha/2$ 点を $z_{\alpha/2}$ とすると：

P\left(-z_{\alpha/2} \leq \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \leq z_{\alpha/2}\right) = 1 - \alpha

変形すると：

\boxed{\bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}}

よく使う $z_{\alpha/2}$ の値：

信頼係数	$\alpha$	$z_{\alpha/2}$
90%	0.10	1.645
95%	0.05	1.960
99%	0.01	2.576

区間の幅： $2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$

幅を狭くしたい（精度を上げたい）なら：

$n$ を大きくする（幅 $\propto 1/\sqrt{n}$）
信頼係数を下げる（95% → 90%）

例）ある地域の成人女性の身長を調査。母標準偏差 $\sigma = 5.5$ cm が既知。 $n = 49$ 人を無作為抽出し、標本平均 $\bar{x} = 158.3$ cm を得た。母平均 $\mu$ の 95% 信頼区間を求めよ。

SE = \frac{5.5}{\sqrt{49}} = \frac{5.5}{7} = 0.786 \text{ cm}

158.3 \pm 1.960 \times 0.786 = 158.3 \pm 1.540

\mathbf{156.76 \leq \mu \leq 159.84} \text{ cm}

4. 母平均の区間推定（$\sigma$ 未知）

実際には母標準偏差 $\sigma$ が未知の場合がほとんどです。この場合、$\sigma$ を標本標準偏差 $s = \sqrt{\frac{1}{n-1}\sum(X_i - \bar{X})^2}$ で置き換えます。

ただし $\sigma$ を $s$ で置き換えると、統計量は正規分布ではなく$t$ 分布（Student の $t$ 分布）に従います：

T = \frac{\bar{X} - \mu}{s / \sqrt{n}} \sim t(n-1)

$t(n-1)$ は自由度 $n-1$ の $t$ 分布です。

$t$ 分布の特徴

標準正規分布と同様に左右対称・釣り鐘型
正規分布より裾が重い（外れた値が出やすい）
自由度が大きくなると正規分布に近づく（$n \geq 30$ 程度で実用上ほぼ同じ）

[図2] t分布と正規分布の比較

$t$ 分布を使った信頼区間：

\boxed{\bar{x} - t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x} + t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}}

$t_{\alpha/2}(n-1)$：自由度 $n-1$ の $t$ 分布の上側 $\alpha/2$ 点（$t$ 表から引く）

例） $n = 16$ のとき $t_{0.025}(15) = 2.131$（$n = 30$ のとき $t_{0.025}(29) = 2.045$、正規近似の $1.960$ に近づく）

例）新しい教授法の効果を検証するため、16人の生徒にテストを実施。標本平均 $\bar{x} = 75.4$ 点、標本標準偏差 $s = 8.0$ 点。母平均の 95% 信頼区間を求めよ（$t_{0.025}(15) = 2.131$）。

SE = \frac{8.0}{\sqrt{16}} = 2.0

75.4 \pm 2.131 \times 2.0 = 75.4 \pm 4.262

\mathbf{71.14 \leq \mu \leq 79.66} \text{ 点}

5. 母比率の区間推定

関連教材（青の統計学）

母比率の推定と検定（動画）

不偏性（動画）

【統計検定でも頻出】母比率の差の検定と具体例（記事）

「支持率」「不良品率」「回答率」など、割合（比率）を推定したい場合です。

標本比率 $\hat{p} = X/n$（$X$：対象の個数）は、$n$ が大きいとき CLT より：

\hat{p} \approx N\left(p, \frac{p(1-p)}{n}\right)

$p$ が未知なので $\hat{p}$ で代替して標準化：

Z = \frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})/n}} \approx N(0, 1)

母比率の信頼区間：

\boxed{\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}

近似が有効な条件： $n\hat{p} \geq 5$ かつ $n(1-\hat{p}) \geq 5$

例） 1000人への調査で480人が賛成。賛成率の 95% 信頼区間を求めよ。

\hat{p} = \frac{480}{1000} = 0.48

SE = \sqrt{\frac{0.48 \times 0.52}{1000}} = \sqrt{0.000250} \approx 0.01581

0.48 \pm 1.960 \times 0.01581 = 0.48 \pm 0.031

\mathbf{0.449 \leq p \leq 0.511}

（44.9%〜51.1%）

📘 補足：信頼区間の幅と必要標本サイズ

母比率の信頼区間の幅は $2 \times z_{\alpha/2} \sqrt{\hat{p}(1-\hat{p})/n}$ です。必要な精度（半幅 $e$）と信頼係数 $1-\alpha$ を決めると、必要標本サイズを逆算できます：
$n \geq \left(\frac{z_{\alpha/2}}{e}\right)^2 \hat{p}(1-\hat{p})$
$\hat{p}$ が不明なら最も保守的な $\hat{p} = 0.5$（分散最大）を使います：
$n \geq \left(\frac{z_{\alpha/2}}{e}\right)^2 \times 0.25$
例）95%信頼区間の半幅を3%以内にしたい：
$n \geq \left(\frac{1.960}{0.03}\right)^2 \times 0.25 = (65.3)^2 \times 0.25 \approx 1067 \text{ 人}$

世論調査で「1000〜1200人」というサンプルサイズがよく使われる理由がこれです。

6. 演習問題

問題1（母平均の区間推定・$\sigma$ 既知）

ある自動販売機が注ぐコーヒーの量は、標準偏差 $\sigma = 3$ ml で安定しています。 36杯を無作為に抽出したところ、平均が 148.2 ml でした。

（1）母平均の 95% 信頼区間を求めてください。（2）99% 信頼区間を求めてください。（3）95% 信頼区間の幅を 1.5 ml 以内にするには、最低何杯サンプリングする必要がありますか？

💡 解答・解説を見る

$\bar{x} = 148.2$、$\sigma = 3$、$n = 36$

SE = \frac{3}{\sqrt{36}} = 0.5 \text{ ml}

（1）95%信頼区間（$z_{0.025} = 1.960$）：

148.2 \pm 1.960 \times 0.5 = 148.2 \pm 0.980

\mathbf{147.22 \leq \mu \leq 149.18} \text{ ml}

（2）99%信頼区間（$z_{0.005} = 2.576$）：

148.2 \pm 2.576 \times 0.5 = 148.2 \pm 1.288

\mathbf{146.91 \leq \mu \leq 149.49} \text{ ml}

信頼係数を上げると（95%→99%）区間が広がることを確認できます。

（3）必要な標本サイズ：

半幅 $e = 1.5/2 = 0.75$ ml 以内にしたい：

z_{0.025} \times \frac{\sigma}{\sqrt{n}} \leq 0.75

1.960 \times \frac{3}{\sqrt{n}} \leq 0.75 \Rightarrow \sqrt{n} \geq \frac{1.960 \times 3}{0.75} = 7.84 \Rightarrow n \geq 61.5

最低62杯のサンプリングが必要です。

問題2（母平均の区間推定・$\sigma$ 未知）

新薬の投与後、9人の患者の血圧低下値（mmHg）を測定したところ：

\[ 10, 8, 15, 12, 9, 11, 7, 13, 11 \]

母平均の 95% 信頼区間を求めてください（$t_{0.025}(8) = 2.306$）。

💡 解答・解説を見る

まず標本平均と標本標準偏差を計算します。

\bar{x} = \frac{10+8+15+12+9+11+7+13+11}{9} = \frac{96}{9} \approx 10.67

各偏差の2乗：

$x_i$	$x_i - \bar{x}$	$(x_i - \bar{x})^2$
10	−0.67	0.449
8	−2.67	7.129
15	4.33	18.749
12	1.33	1.769
9	−1.67	2.789
11	0.33	0.109
7	−3.67	13.469
13	2.33	5.429
11	0.33	0.109
合計		50.001

s^2 = \frac{50.001}{8} \approx 6.25, \quad s \approx 2.50

SE = \frac{s}{\sqrt{n}} = \frac{2.50}{\sqrt{9}} = \frac{2.50}{3} \approx 0.833

\bar{x} \pm t_{0.025}(8) \times SE = 10.67 \pm 2.306 \times 0.833 = 10.67 \pm 1.921

\mathbf{8.75 \leq \mu \leq 12.59} \text{ mmHg}

95%信頼区間は [8.75, 12.59] mmHg。区間が0を含まないので、この薬は血圧を下げる効果がある可能性が高いといえます（次章の仮説検定で正式に検証します）。

問題3（母比率の区間推定）

ある市でオンライン投票システムへの賛成率を調査しました。 500人のうち 310 人が賛成と回答しました。

（1）賛成率の 95% 信頼区間を求めてください。（2）信頼区間が「賛成多数（50%超）」を支持しているか判断してください。（3）半幅を 2% 以内にするには何人必要ですか？

💡 解答・解説を見る

（1）95%信頼区間：

\hat{p} = \frac{310}{500} = 0.62

近似条件確認：$500 \times 0.62 = 310 \geq 5$、$500 \times 0.38 = 190 \geq 5$ ✓

SE = \sqrt{\frac{0.62 \times 0.38}{500}} = \sqrt{\frac{0.2356}{500}} = \sqrt{0.000471} \approx 0.02170

0.62 \pm 1.960 \times 0.02170 = 0.62 \pm 0.0425

\mathbf{0.578 \leq p \leq 0.663}

（57.8%〜66.3%）

（2）賛成多数の判断：

信頼区間の下限が 57.8% > 50% であるため、区間全体が50%を超えています。 賛成多数（50%超）を95%の信頼水準で支持しています。

（3）半幅 2%（= 0.02）以内の必要標本サイズ：

n \geq \left(\frac{1.960}{0.02}\right)^2 \times \hat{p}(1-\hat{p}) = (98)^2 \times 0.62 \times 0.38 = 9604 \times 0.2356 \approx 2263

最低2263人が必要です。精度を2倍（4%→2%）にするには標本サイズを約4.5倍に増やす必要があることがわかります（$n \propto 1/e^2$）。

まとめ

項目	内容
点推定	1つの値でパラメータを推定。不偏性・一致性が重要な基準
区間推定	幅でパラメータを推定。信頼係数 $1-\alpha$ の信頼区間を構成
信頼区間の解釈	「この手順を繰り返すと $(1-\alpha)$ 割の区間が真の値を含む」
$\sigma$ 既知	正規分布（$z$ 値）を使う
$\sigma$ 未知	$t$ 分布（$t$ 値）を使う。自由度 $n-1$
母比率	CLT で正規近似。$n\hat{p} \geq 5$ かつ $n(1-\hat{p}) \geq 5$ を確認
幅と精度	幅 $\propto 1/\sqrt{n}$。精度を2倍にするには $n$ を4倍にする

次の章へ

区間推定で「幅で答える」方法を学びました。次は「仮説が正しいか判断する」仮説検定に進みます。

→ 次: 仮説検定の考え方