この問題では、2つの量的変数間の線形関係の強さと方向を示す重要な指標であるピアソンの積率相関係数(単に相関係数とも呼ばれます)の計算方法と、その解釈について理解を深めます。
相関係数 (Correlation Coefficient) とは?
相関係数($r$ または $\rho$)は、2つの変数が直線的な関係にあるかどうか、またその関係がどの程度強いかを示す統計的指標です。値は常に -1 から +1 の間を取ります。
- +1 に近い場合: 強い正の線形関係があることを示します。つまり、一方の変数が増加すると、もう一方の変数も増加する傾向があります。
- -1 に近い場合: 強い負の線形関係があることを示します。つまり、一方の変数が増加すると、もう一方の変数は減少する傾向があります。
- 0 に近い場合: 線形関係がほとんどない、または全くないことを示します。ただし、非線形の関係が存在する可能性は否定できません。
相関係数の計算式は以下の通りです。
$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}} = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$
ここで、$x_i, y_i$ は各データ点、$\bar{x}, \bar{y}$ はそれぞれの平均値、$n$ はデータの総数、$S_{xy}$ は $x$ と $y$ の共分散、$S_{xx}$ は $x$ の分散、$S_{yy}$ は $y$ の分散(正確には分散の$n$倍)を表します。
1. 平均値の計算
まず、変数 $x$ と $y$ のそれぞれの平均値 $\bar{x}$ と $\bar{y}$ を計算します。
データ $x: 1, 3, 5, 7, 9$
$\bar{x} = \frac{1 + 3 + 5 + 7 + 9}{5} = \frac{25}{5} = 5$
データ $y: 2, 3, 5, 6, 9$
$\bar{y} = \frac{2 + 3 + 5 + 6 + 9}{5} = \frac{25}{5} = 5$
2. 偏差 $(x_i - \bar{x})$, $(y_i - \bar{y})$ の計算
次に、各データ点と平均値との差(偏差)を計算します。
$\begin{array}{c|c|c|c|c|c|c}
x_i & y_i & (x_i - \bar{x}) & (y_i - \bar{y}) & (x_i - \bar{x})(y_i - \bar{y}) & (x_i - \bar{x})^2 & (y_i - \bar{y})^2 \\ 1 & 2 & -4 & -3 & 12 & 16 & 9 \\ 3 & 3 & -2 & -2 & 4 & 4 & 4 \\ 5 & 5 & 0 & 0 & 0 & 0 & 0 \\ 7 & 6 & 2 & 1 & 2 & 4 & 1 \\ 9 & 9 & 4 & 4 & 16 & 16 & 16 \\
\text{合計} & & & & 34 & 40 & 30
\end{array}
$
3. 共分散 ($S_{xy}$), $x$の偏差平方和 ($S_{xx}$), $y$の偏差平方和 ($S_{yy}$) の計算
上記の表から、相関係数の計算に必要な各合計値を求めます。
$S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) = 12 + 4 + 0 + 2 + 16 = 34$
$S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2 = 16 + 4 + 0 + 4 + 16 = 40$
$S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2 = 9 + 4 + 0 + 1 + 16 = 30$
4. 相関係数 $r$ の計算
ステップ3で計算した値を相関係数の公式に代入します。
\begin{align}
r &= \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} \\
&= \frac{34}{\sqrt{40 \times 30}} \\
&= \frac{34}{\sqrt{1200}} \\
&= \frac{34}{20\sqrt{3}} \\
&= \frac{34}{34.6410...} \\
&\approx 0.9815
\end{align}
問題では小数第2位まで求めよとあるので、相関係数 $r \approx 0.98$ となります。
相関係数の解釈と注意点
- 値の範囲と意味:
- $r = 1$: 完全な正の線形相関
- $r = -1$: 完全な負の線形相関
- $r = 0$: 線形相関なし
- $0 < r < 1$: 正の線形相関。値が1に近いほど強い。
- $-1 < r < 0$: 負の線形相関。値が-1に近いほど強い。
- 相関の強さの目安 (一般的な解釈):
- $|r| \geq 0.7$: 強い相関
- $0.4 \leq |r| < 0.7$: 中程度の相関
- $0.2 \leq |r| < 0.4$: 弱い相関
- $|r| < 0.2$: ほとんど相関なし
この問題の $r \approx 0.98$ は、非常に強い正の線形相関があることを示唆しています。
- 相関関係は因果関係を含意しない: 相関係数が高いからといって、一方の変数がもう一方の変数の原因であるとは限りません。背後に潜む第三の変数(交絡因子)の影響や、偶然の一致である可能性も考慮する必要があります。
- 線形関係のみを捉える: 相関係数は、あくまで線形の関係性を測る指標です。2つの変数間に明確な非線形の関係(例:U字型の関係)があっても、相関係数は0に近くなることがあります。そのため、散布図を描いてデータの分布を視覚的に確認することが重要です。
- 外れ値の影響: 相関係数は外れ値に敏感に影響を受けることがあります。外れ値が存在する場合、それを含めて計算するか除外するか、あるいはロバストな相関指標(例:スピアマンの順位相関係数、ケンドールのタウなど)を検討する必要があります。
- 単位に依存しない: 相関係数は標準化された指標であるため、変数の測定単位(例:cmとm、kgとg)に影響されません。
共分散との関係:
相関係数は、共分散を各変数の標準偏差の積で割ることで標準化したものです。
$r = \frac{\text{Cov}(x,y)}{\sigma_x \sigma_y}$
共分散 $\text{Cov}(x,y) = \frac{1}{n}\sum(x_i-\bar{x})(y_i-\bar{y})$ は相関の方向(正か負か)を示しますが、値の大きさが変数の単位に依存するため、相関の強さを解釈しにくいという欠点があります。相関係数はこの欠点を克服し、-1から1の範囲で関係の強さを評価できるようにします。
以上の計算と解釈から、与えられたデータの相関係数は $0.98$ であり、これは2つの変数間に非常に強い正の線形関係があることを示しています。