分散と標準偏差 - 問題演習問題3 - 青の統計学-DS Playground-

分散と標準偏差レベル1

次のデータの標準偏差を求めよ。小数第2位まで求めよ。 \begin{array}{l|ccccc} \hline x & 2 & 4 & 6 & 8 & 10 \\ \hline \end{array}

解説

解答と解説を表示

<p>この問題では、データの<strong>散らばり具合</strong>を示す最も基本的な指標である<strong>分散</strong>と<strong>標準偏差</strong>の計算方法と、それらが持つ意味について理解を深めます。</p><h4>分散 (Variance) とは？</h4> <p>分散は、データが平均値からどれだけ散らばっているかを示す指標の一つです。具体的には、各データ点と平均値との差（<strong>偏差</strong>）を二乗し、それらを平均した値です。</p> <ul> <li><strong>なぜ二乗するのか？</strong>: 偏差（$x_i - \bar{x}$）をそのまま合計すると、常に0になってしまい散らばり具合を測れません。二乗することで、平均からの距離の大きさを正の値として評価できます。</li> </ul> <p>母集団全体のデータに対する分散（母分散 $\sigma^2$）は以下のように計算されます（記述統計の文脈では、標本データに対してもこの式を用いることがあります）。</p> <div class='formula'> $\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}$ </div> <p>ここで、$x_i$ は個々のデータ、$\bar{x}$ はデータの平均値、$n$ はデータの総数を表します。</p><h4>標準偏差 (Standard Deviation) とは？</h4> <p>標準偏差は、分散の正の平方根です。分散と同様にデータの散らばり具合を示しますが、より直感的に理解しやすい指標です。</p> <ul> <li><strong>なぜ平方根を取るのか？</strong>: 分散の単位は、元のデータの単位の二乗（例：データがcmなら分散はcm²）となります。標準偏差は平方根を取ることで、元のデータと同じ単位に戻り、解釈が容易になります。</li> </ul> <div class='formula'> $\sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}}$ </div><p class='step'>1. 平均値の計算</p> <p>まず、データの平均値 $\bar{x}$ を計算します。</p> <p>与えられたデータは $2, 4, 6, 8, 10$ です。</p> <div class='formula'> \begin{align} \bar{x} &= \frac{2 + 4 + 6 + 8 + 10}{5} \\ &= \frac{30}{5} \\ &= 6 \end{align} </div><p class='step'>2. 偏差と偏差の二乗の計算</p> <p>次に、各データ点 $x_i$ と平均値 $\bar{x}$ との差（偏差）を計算し、それぞれを二乗します。</p> <div class='formula'> \begin{align} (2 - 6)^2 &= (-4)^2 = 16 \\ (4 - 6)^2 &= (-2)^2 = 4 \\ (6 - 6)^2 &= 0^2 = 0 \\ (8 - 6)^2 &= 2^2 = 4 \\ (10 - 6)^2 &= 4^2 = 16 \end{align} </div><p class='step'>3. 分散の計算</p> <p>偏差の二乗の合計をデータの個数 $n$ で割って、分散 $\sigma^2$ を計算します。</p> <p>偏差の二乗の合計は $16 + 4 + 0 + 4 + 16 = 40$ です。</p> <p>データの個数は $5$ 個です。</p> <div class='formula'> \begin{align} \sigma^2 &= \frac{40}{5} \\ &= 8 \end{align} </div><p class='step'>4. 標準偏差の計算</p> <p>分散 $\sigma^2$ の正の平方根を取って、標準偏差 $\sigma$ を計算します。</p> <div class='formula'> \begin{align} \sigma &= \sqrt{8} \\ &\approx 2.8284... \end{align} </div> <p>問題では小数第2位まで求めよとあるので、標準偏差は約 $2.83$ となります。</p><div class='key-point'> <div class='key-point-title'>分散と標準偏差のポイント</div> <ul> <li><strong>解釈のしやすさ</strong>: 標準偏差は元のデータと同じ単位を持つため、データの散らばりを直感的に理解しやすいです。例えば、「平均点から標準偏差1つ分だけ点数が高い」といった表現が可能です。</li> <li><strong>正規分布との関連 (68-95-99.7ルール)</strong>: データが正規分布に近い場合、 <ul> <li>平均値 ±1 標準偏差の範囲に約68%のデータ</li> <li>平均値 ±2 標準偏差の範囲に約95%のデータ</li> <li>平均値 ±3 標準偏差の範囲に約99.7%のデータ</li> </ul> が含まれるという経験則があり、データのばらつきを評価する目安になります。</li> <li><strong>不偏分散</strong>: 標本から母集団の分散を推定する場合、分母を $n$ ではなく $n-1$ で割った<strong>不偏分散</strong> ($s^2$) を用いることが一般的です。これは、標本分散が母分散を過小評価する傾向があるため、それを補正するためです。 <div class='formula'>$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}

lt;/div> 統計検定2級ではこの概念も重要になりますが、この問題は記述統計の範囲でデータの特性を捉えることが目的なので、分母 $n$ の分散を計算しています。 </li> </ul> </div><p class='note'> <strong>補足：</strong><br> 分散や標準偏差が大きいほど、データは平均値から広範囲に散らばっていることを意味し、小さいほどデータは平均値の周りに集中していることを示します。これらの指標は、品質管理、金融リスク分析、科学的研究など、様々な分野でデータのばらつきを評価するために不可欠です。 </p><p>この問題の答えとして、標準偏差は $2.83$ (指定により小数第2位まで)となります。</p>

基礎編