青の統計学-DS Playground-

点推定と区間推定

Stage 4 — 第2章| 統計学基礎カリキュラム 推定学習時間:50〜60分 | 難易度:★★★★☆


この章で学ぶこと

標本から母集団のパラメータ(母平均・母比率など)を推定する方法を学びます。 推定には「1つの値で答える」点推定と「幅で答える」区間推定の2種類があります。

この章を終えると、こんなことができるようになります:

  • 点推定量の望ましい性質(不偏性・一致性)を説明できる
  • 信頼区間の正しい意味を説明できる(よくある誤解を避けられる)
  • 母平均の信頼区間を $\sigma$ 既知・未知の両方で計算できる
  • 母比率の信頼区間を計算できる
  • 標本サイズと信頼区間の幅の関係を説明できる

1. 点推定

1.1 推定量と推定値

母集団のパラメータ $\theta$(母平均 $\mu$、母分散 $\sigma^2$ など)を、標本から計算した1つの値で推定することを点推定(point estimation)といいます。

  • 推定量(estimator):推定のために使う統計量(確率変数)。例:$\bar{X}$
  • 推定値(estimate):実際のデータから計算した具体的な値。例:$\bar{x} = 172.3$

同じ推定量でも、取り出す標本によって推定値は変わります。

1.2 よい推定量の性質

すべての推定量が同じように「よい」わけではありません。代表的な基準を2つ示します。

不偏性(Unbiasedness):

$E[\hat{\theta}] = \theta$

推定量の期待値が真のパラメータと一致する性質。「平均的に当たっている」。

標本平均 $\bar{X}$ は母平均 $\mu$ の不偏推定量です(前章で確認済み)。 標本分散 $s^2 = \frac{1}{n-1}\sum(X_i - \bar{X})^2$ は母分散 $\sigma^2$ の不偏推定量です($n-1$ で割る理由)。

一致性(Consistency):

$\hat{\theta} \xrightarrow{n \to \infty} \theta$

標本サイズを大きくするほど、推定量が真の値に近づく性質。大数の法則により $\bar{X}$ は一致性を持ちます。


📘 補足:有効性(Efficiency)

同じパラメータの不偏推定量が複数ある場合、分散が最小のものが最も「効率よい」推定量です。

例えば、母平均の不偏推定量として標本平均 $\bar{X}$ と標本中央値 $\tilde{X}$ の両方が使えますが、正規母集団では $\bar{X}$ のほうが分散が小さく、より有効な推定量です。

「不偏かつ分散最小」の推定量をUMVUE(Uniformly Minimum Variance Unbiased Estimator)と呼び、推定理論の目標の一つです。


2. 区間推定と信頼区間

関連教材(青の統計学)

2.1 なぜ区間で推定するか

点推定は1つの値を与えますが、「どれくらい信頼できるか」という情報がありません。 区間推定では「真の値がこの幅の中に入っている」という区間を提示します。

信頼区間(Confidence Interval, CI):

信頼係数(信頼水準)$1 - \alpha$(例:95%)で、真のパラメータ $\theta$ が含まれると期待される区間。

2.2 信頼区間の正しい解釈

よくある誤解:「95%信頼区間とは、真の値が95%の確率でこの区間に入っている」

正しい解釈: 真の $\mu$(母平均)は固定した値であって、確率的に動くものではありません。「95%信頼区間」とは、「同じ手順で標本を取り直して区間を100回作ると、そのうち約95回が真の $\mu$ を含む」という意味です。

特定の1つの区間について「真の値が95%の確率でここに入る」とは言えません。特定の区間は真の値を含むか含まないかのどちらかです。


[図1] 信頼区間の意味 95%信頼区間 ── 20回中約19回が真の値を含む


3. 母平均の区間推定($\sigma$ 既知)

母標準偏差 $\sigma$ が既知のとき、CLT より:

$Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)$

信頼係数 $1 - \alpha$ の信頼区間を求めます。上側 $\alpha/2$ 点を $z_{\alpha/2}$ とすると:

$P\left(-z_{\alpha/2} \leq \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \leq z_{\alpha/2}\right) = 1 - \alpha$

変形すると:

$\boxed{\bar{X} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}}$

よく使う $z_{\alpha/2}$ の値:

信頼係数 $\alpha$ $z_{\alpha/2}$
90% 0.10 1.645
95% 0.05 1.960
99% 0.01 2.576

区間の幅: $2 \times z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$

幅を狭くしたい(精度を上げたい)なら:

  • $n$ を大きくする(幅 $\propto 1/\sqrt{n}$)
  • 信頼係数を下げる(95% → 90%)

例) ある地域の成人女性の身長を調査。母標準偏差 $\sigma = 5.5$ cm が既知。 $n = 49$ 人を無作為抽出し、標本平均 $\bar{x} = 158.3$ cm を得た。 母平均 $\mu$ の 95% 信頼区間を求めよ。

$SE = \frac{5.5}{\sqrt{49}} = \frac{5.5}{7} = 0.786 \text{ cm}$

$158.3 \pm 1.960 \times 0.786 = 158.3 \pm 1.540$

$\mathbf{156.76 \leq \mu \leq 159.84} \text{ cm}$


4. 母平均の区間推定($\sigma$ 未知)

実際には母標準偏差 $\sigma$ が未知の場合がほとんどです。この場合、$\sigma$ を標本標準偏差 $s = \sqrt{\frac{1}{n-1}\sum(X_i - \bar{X})^2}$ で置き換えます。

ただし $\sigma$ を $s$ で置き換えると、統計量は正規分布ではなく$t$ 分布(Student の $t$ 分布)に従います:

$T = \frac{\bar{X} - \mu}{s / \sqrt{n}} \sim t(n-1)$

$t(n-1)$ は自由度 $n-1$ の $t$ 分布です。

$t$ 分布の特徴

  • 標準正規分布と同様に左右対称・釣り鐘型
  • 正規分布より裾が重い(外れた値が出やすい)
  • 自由度が大きくなると正規分布に近づく($n \geq 30$ 程度で実用上ほぼ同じ)

[図2] t分布と正規分布の比較 t分布 ── 自由度による形状変化


$t$ 分布を使った信頼区間:

$\boxed{\bar{x} - t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} \leq \mu \leq \bar{x} + t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}}$

$t_{\alpha/2}(n-1)$:自由度 $n-1$ の $t$ 分布の上側 $\alpha/2$ 点($t$ 表から引く)

例) $n = 16$ のとき $t_{0.025}(15) = 2.131$($n = 30$ のとき $t_{0.025}(29) = 2.045$、正規近似の $1.960$ に近づく)


例) 新しい教授法の効果を検証するため、16人の生徒にテストを実施。 標本平均 $\bar{x} = 75.4$ 点、標本標準偏差 $s = 8.0$ 点。 母平均の 95% 信頼区間を求めよ($t_{0.025}(15) = 2.131$)。

$SE = \frac{8.0}{\sqrt{16}} = 2.0$

$75.4 \pm 2.131 \times 2.0 = 75.4 \pm 4.262$

$\mathbf{71.14 \leq \mu \leq 79.66} \text{ 点}$


5. 母比率の区間推定

関連教材(青の統計学)

「支持率」「不良品率」「回答率」など、割合(比率)を推定したい場合です。

標本比率 $\hat{p} = X/n$($X$:対象の個数)は、$n$ が大きいとき CLT より:

$\hat{p} \approx N\left(p, \frac{p(1-p)}{n}\right)$

$p$ が未知なので $\hat{p}$ で代替して標準化:

$Z = \frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})/n}} \approx N(0, 1)$

母比率の信頼区間:

$\boxed{\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}$

近似が有効な条件: $n\hat{p} \geq 5$ かつ $n(1-\hat{p}) \geq 5$

例) 1000人への調査で480人が賛成。賛成率の 95% 信頼区間を求めよ。

$\hat{p} = \frac{480}{1000} = 0.48$

$SE = \sqrt{\frac{0.48 \times 0.52}{1000}} = \sqrt{0.000250} \approx 0.01581$

$0.48 \pm 1.960 \times 0.01581 = 0.48 \pm 0.031$

$\mathbf{0.449 \leq p \leq 0.511}$(44.9%〜51.1%)


📘 補足:信頼区間の幅と必要標本サイズ

母比率の信頼区間の幅は $2 \times z_{\alpha/2} \sqrt{\hat{p}(1-\hat{p})/n}$ です。 必要な精度(半幅 $e$)と信頼係数 $1-\alpha$ を決めると、必要標本サイズを逆算できます:

$n \geq \left(\frac{z_{\alpha/2}}{e}\right)^2 \hat{p}(1-\hat{p})$

$\hat{p}$ が不明なら最も保守的な $\hat{p} = 0.5$(分散最大)を使います:

$n \geq \left(\frac{z_{\alpha/2}}{e}\right)^2 \times 0.25$

例)95%信頼区間の半幅を3%以内にしたい: $n \geq \left(\frac{1.960}{0.03}\right)^2 \times 0.25 = (65.3)^2 \times 0.25 \approx 1067 \text{ 人}$

世論調査で「1000〜1200人」というサンプルサイズがよく使われる理由がこれです。


6. 演習問題

問題1(母平均の区間推定・$\sigma$ 既知)

ある自動販売機が注ぐコーヒーの量は、標準偏差 $\sigma = 3$ ml で安定しています。 36杯を無作為に抽出したところ、平均が 148.2 ml でした。

(1)母平均の 95% 信頼区間を求めてください。 (2)99% 信頼区間を求めてください。 (3)95% 信頼区間の幅を 1.5 ml 以内にするには、最低何杯サンプリングする必要がありますか?

💡 解答・解説を見る

$\bar{x} = 148.2$、$\sigma = 3$、$n = 36$

$SE = \frac{3}{\sqrt{36}} = 0.5 \text{ ml}$

(1)95%信頼区間($z_{0.025} = 1.960$):

$148.2 \pm 1.960 \times 0.5 = 148.2 \pm 0.980$

$\mathbf{147.22 \leq \mu \leq 149.18} \text{ ml}$

(2)99%信頼区間($z_{0.005} = 2.576$):

$148.2 \pm 2.576 \times 0.5 = 148.2 \pm 1.288$

$\mathbf{146.91 \leq \mu \leq 149.49} \text{ ml}$

信頼係数を上げると(95%→99%)区間が広がることを確認できます。

(3)必要な標本サイズ:

半幅 $e = 1.5/2 = 0.75$ ml 以内にしたい:

$z_{0.025} \times \frac{\sigma}{\sqrt{n}} \leq 0.75$

$1.960 \times \frac{3}{\sqrt{n}} \leq 0.75 \Rightarrow \sqrt{n} \geq \frac{1.960 \times 3}{0.75} = 7.84 \Rightarrow n \geq 61.5$

最低62杯のサンプリングが必要です。


問題2(母平均の区間推定・$\sigma$ 未知)

新薬の投与後、9人の患者の血圧低下値(mmHg)を測定したところ:

$10, 8, 15, 12, 9, 11, 7, 13, 11$

母平均の 95% 信頼区間を求めてください($t_{0.025}(8) = 2.306$)。

💡 解答・解説を見る

まず標本平均と標本標準偏差を計算します。

$\bar{x} = \frac{10+8+15+12+9+11+7+13+11}{9} = \frac{96}{9} \approx 10.67$

各偏差の2乗:

$x_i$ $x_i - \bar{x}$ $(x_i - \bar{x})^2$
10 −0.67 0.449
8 −2.67 7.129
15 4.33 18.749
12 1.33 1.769
9 −1.67 2.789
11 0.33 0.109
7 −3.67 13.469
13 2.33 5.429
11 0.33 0.109
合計 50.001

$s^2 = \frac{50.001}{8} \approx 6.25, \quad s \approx 2.50$

$SE = \frac{s}{\sqrt{n}} = \frac{2.50}{\sqrt{9}} = \frac{2.50}{3} \approx 0.833$

$\bar{x} \pm t_{0.025}(8) \times SE = 10.67 \pm 2.306 \times 0.833 = 10.67 \pm 1.921$

$\mathbf{8.75 \leq \mu \leq 12.59} \text{ mmHg}$

95%信頼区間は [8.75, 12.59] mmHg。区間が0を含まないので、この薬は血圧を下げる効果がある可能性が高いといえます(次章の仮説検定で正式に検証します)。


問題3(母比率の区間推定)

ある市でオンライン投票システムへの賛成率を調査しました。 500人のうち 310 人が賛成と回答しました。

(1)賛成率の 95% 信頼区間を求めてください。 (2)信頼区間が「賛成多数(50%超)」を支持しているか判断してください。 (3)半幅を 2% 以内にするには何人必要ですか?

💡 解答・解説を見る

(1)95%信頼区間:

$\hat{p} = \frac{310}{500} = 0.62$

近似条件確認:$500 \times 0.62 = 310 \geq 5$、$500 \times 0.38 = 190 \geq 5$ ✓

$SE = \sqrt{\frac{0.62 \times 0.38}{500}} = \sqrt{\frac{0.2356}{500}} = \sqrt{0.000471} \approx 0.02170$

$0.62 \pm 1.960 \times 0.02170 = 0.62 \pm 0.0425$

$\mathbf{0.578 \leq p \leq 0.663}$(57.8%〜66.3%)

(2)賛成多数の判断:

信頼区間の下限が 57.8% > 50% であるため、区間全体が50%を超えています。 賛成多数(50%超)を95%の信頼水準で支持しています。

(3)半幅 2%(= 0.02)以内の必要標本サイズ:

$n \geq \left(\frac{1.960}{0.02}\right)^2 \times \hat{p}(1-\hat{p}) = (98)^2 \times 0.62 \times 0.38 = 9604 \times 0.2356 \approx 2263$

最低2263人が必要です。精度を2倍(4%→2%)にするには標本サイズを約4.5倍に増やす必要があることがわかります($n \propto 1/e^2$)。


まとめ

項目 内容
点推定 1つの値でパラメータを推定。不偏性・一致性が重要な基準
区間推定 幅でパラメータを推定。信頼係数 $1-\alpha$ の信頼区間を構成
信頼区間の解釈 「この手順を繰り返すと $(1-\alpha)$ 割の区間が真の値を含む」
$\sigma$ 既知 正規分布($z$ 値)を使う
$\sigma$ 未知 $t$ 分布($t$ 値)を使う。自由度 $n-1$
母比率 CLT で正規近似。$n\hat{p} \geq 5$ かつ $n(1-\hat{p}) \geq 5$ を確認
幅と精度 幅 $\propto 1/\sqrt{n}$。精度を2倍にするには $n$ を4倍にする

次の章へ

区間推定で「幅で答える」方法を学びました。次は「仮説が正しいか判断する」仮説検定に進みます。

次: 仮説検定の考え方