記述統計量のうち、変動係数の有用性を理解しているかを問う問題です。
変動係数は、平均値に対する標準偏差の相対的な大きさを示す指標であり、測定単位や平均値の大きさが異なる集団のデータのばらつき度合いを比較する際に有用です。
1. 標準偏差と変動係数
標準偏差 (Standard Deviation, SD) は、データが平均値からどれだけ散らばっているかを示す絶対的な指標です。データの測定単位と同じ単位を持ちます。
$SD = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$ (母標準偏差の場合は分母がN)
変動係数 (Coefficient of Variation, CV) は、標準偏差を平均値で割った値で、データの相対的なばらつきの度合いを示します。通常、百分率(%)で表されることもあります。
$CV = \frac{標準偏差}{平均値}$ (平均値が0でない場合)
2. 変動係数を用いる利点
平均値が大きく異なる二つのデータセットを比較する場合、標準偏差だけを見てばらつきを評価すると誤った結論に至ることがあります。例えば、
- データセットA: 平均1000、標準偏差100
- データセットB: 平均10、標準偏差10
この場合、標準偏差はどちらも100ですが、データセットAの標準偏差は平均値の10%(CV=0.1)、データセットBの標準偏差は平均値の100%(CV=1.0)となり、相対的なばらつきはBの方が圧倒的に大きいことがわかります。
変動係数は単位を持たない無次元数であるため、このように平均値の水準や測定単位が異なるデータセット間でも、相対的なばらつきの大きさを比較することが可能です。例えば、身長のデータ(cm)と体重のデータ(kg)のばらつきを比較する場合などにも有用です。
3. 各選択肢の検討
- 「変動係数は常に0から1の間の値をとるため」:誤り。変動係数は1を超えることもあります(平均値より標準偏差が大きい場合)。
- 「変動係数は外れ値の影響を受けにくいため」:誤り。変動係数も平均値と標準偏差から計算されるため、外れ値の影響を受けます。
- 「変動係数は単位に依存しない無次元数であるため、測定単位や平均値の水準が異なるデータセット間でも相対的なばらつきを比較できるから。」:正しい。これが変動係数の主要な利点です。
- 「変動係数は計算が標準偏差よりも容易であるから。」:誤り。変動係数の計算には標準偏差が必要であり、計算ステップは増えます。
- 「変動係数は正規分布に従うデータにのみ適用可能だから。」:誤り。変動係数は分布の形状に依存せず計算できますが、解釈には注意が必要です(特に平均値が0に近い場合)。
したがって、変動係数を用いる主な理由は、単位に依存しない無次元数であり、異なるスケールのデータセット間で相対的なばらつきを比較できる点にあります。