<p>この問題では、2つの量的変数間の<strong>線形関係の強さと方向</strong>を示す重要な指標である<strong>ピアソンの積率相関係数</strong>(単に相関係数とも呼ばれます)の計算方法と、その解釈について理解を深めます。</p><h4>相関係数 (Correlation Coefficient) とは?</h4>
<p>相関係数($r$ または $\rho$)は、2つの変数が直線的な関係にあるかどうか、またその関係がどの程度強いかを示す統計的指標です。値は常に <strong>-1 から +1 の間</strong>を取ります。</p>
<ul>
<li><strong>+1 に近い場合</strong>: 強い正の線形関係があることを示します。つまり、一方の変数が増加すると、もう一方の変数も増加する傾向があります。</li>
<li><strong>-1 に近い場合</strong>: 強い負の線形関係があることを示します。つまり、一方の変数が増加すると、もう一方の変数は減少する傾向があります。</li>
<li><strong>0 に近い場合</strong>: 線形関係がほとんどない、または全くないことを示します。ただし、非線形の関係が存在する可能性は否定できません。</li>
</ul>
<p>相関係数の計算式は以下の通りです。</p>
<div class='formula'>
$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}} = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$
</div>
<p>ここで、$x_i, y_i$ は各データ点、$\bar{x}, \bar{y}$ はそれぞれの平均値、$n$ はデータの総数、$S_{xy}$ は $x$ と $y$ の共分散、$S_{xx}$ は $x$ の分散、$S_{yy}$ は $y$ の分散(正確には分散の$n$倍)を表します。</p><p class='step'>1. 平均値の計算</p>
<p>まず、変数 $x$ と $y$ のそれぞれの平均値 $\bar{x}$ と $\bar{y}$ を計算します。</p>
<p>データ $x: 1, 3, 5, 7, 9
lt;/p>
<div class='formula'>
$\bar{x} = \frac{1 + 3 + 5 + 7 + 9}{5} = \frac{25}{5} = 5$
</div>
<p>データ $y: 2, 3, 5, 6, 9
lt;/p>
<div class='formula'>
$\bar{y} = \frac{2 + 3 + 5 + 6 + 9}{5} = \frac{25}{5} = 5$
</div><p class='step'>2. 偏差 $(x_i - \bar{x})$, $(y_i - \bar{y})$ の計算</p>
<p>次に、各データ点と平均値との差(偏差)を計算します。</p>
<div class='formula'>
$\begin{array}{c|c|c|c|c|c|c}
x_i & y_i & (x_i - \bar{x}) & (y_i - \bar{y}) & (x_i - \bar{x})(y_i - \bar{y}) & (x_i - \bar{x})^2 & (y_i - \bar{y})^2 \\ 1 & 2 & -4 & -3 & 12 & 16 & 9 \\ 3 & 3 & -2 & -2 & 4 & 4 & 4 \\ 5 & 5 & 0 & 0 & 0 & 0 & 0 \\ 7 & 6 & 2 & 1 & 2 & 4 & 1 \\ 9 & 9 & 4 & 4 & 16 & 16 & 16 \\
\text{合計} & & & & 34 & 40 & 30
\end{array}
lt;/div><p class='step'>3. 共分散 ($S_{xy}$), $x$の偏差平方和 ($S_{xx}$), $y$の偏差平方和 ($S_{yy}$) の計算</p>
<p>上記の表から、相関係数の計算に必要な各合計値を求めます。</p>
<div class='formula'>
$S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) = 12 + 4 + 0 + 2 + 16 = 34$
</div>
<div class='formula'>
$S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2 = 16 + 4 + 0 + 4 + 16 = 40$
</div>
<div class='formula'>
$S_{yy} = \sum_{i=1}^{n} (y_i - \bar{y})^2 = 9 + 4 + 0 + 1 + 16 = 30$
</div><p class='step'>4. 相関係数 $r$ の計算</p>
<p>ステップ3で計算した値を相関係数の公式に代入します。</p>
<div class='formula'>
\begin{align}
r &= \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}} \\
&= \frac{34}{\sqrt{40 \times 30}} \\
&= \frac{34}{\sqrt{1200}} \\
&= \frac{34}{20\sqrt{3}} \\
&= \frac{34}{34.6410...} \\
&\approx 0.9815
\end{align}
</div>
<p>問題では小数第2位まで求めよとあるので、相関係数 $r \approx 0.98$ となります。</p><div class='key-point'>
<div class='key-point-title'>相関係数の解釈と注意点</div>
<ul>
<li><strong>値の範囲と意味</strong>:
<ul>
<li>$r = 1$: 完全な正の線形相関</li>
<li>$r = -1$: 完全な負の線形相関</li>
<li>$r = 0$: 線形相関なし</li>
<li>$0 < r < 1$: 正の線形相関。値が1に近いほど強い。</li>
<li>$-1 < r < 0$: 負の線形相関。値が-1に近いほど強い。</li>
</ul>
</li>
<li><strong>相関の強さの目安 (一般的な解釈)</strong>:
<ul>
<li>$|r| \geq 0.7$: 強い相関</li>
<li>$0.4 \leq |r| < 0.7$: 中程度の相関</li>
<li>$0.2 \leq |r| < 0.4$: 弱い相関</li>
<li>$|r| < 0.2$: ほとんど相関なし</li>
</ul>
この問題の $r \approx 0.98$ は、<strong>非常に強い正の線形相関</strong>があることを示唆しています。
</li>
<li><strong>相関関係は因果関係を含意しない</strong>: 相関係数が高いからといって、一方の変数がもう一方の変数の原因であるとは限りません。背後に潜む第三の変数(交絡因子)の影響や、偶然の一致である可能性も考慮する必要があります。</li>
<li><strong>線形関係のみを捉える</strong>: 相関係数は、あくまで線形の関係性を測る指標です。2つの変数間に明確な非線形の関係(例:U字型の関係)があっても、相関係数は0に近くなることがあります。そのため、散布図を描いてデータの分布を視覚的に確認することが重要です。</li>
<li><strong>外れ値の影響</strong>: 相関係数は外れ値に敏感に影響を受けることがあります。外れ値が存在する場合、それを含めて計算するか除外するか、あるいはロバストな相関指標(例:スピアマンの順位相関係数、ケンドールのタウなど)を検討する必要があります。</li>
<li><strong>単位に依存しない</strong>: 相関係数は標準化された指標であるため、変数の測定単位(例:cmとm、kgとg)に影響されません。</li>
</ul>
</div><p class='note'>
<strong>共分散との関係:</strong><br>
相関係数は、共分散を各変数の標準偏差の積で割ることで標準化したものです。
<div class='formula'>$r = \frac{\text{Cov}(x,y)}{\sigma_x \sigma_y}
lt;/div>
共分散 $\text{Cov}(x,y) = \frac{1}{n}\sum(x_i-\bar{x})(y_i-\bar{y})$ は相関の方向(正か負か)を示しますが、値の大きさが変数の単位に依存するため、相関の強さを解釈しにくいという欠点があります。相関係数はこの欠点を克服し、-1から1の範囲で関係の強さを評価できるようにします。
</p><p>以上の計算と解釈から、与えられたデータの相関係数は $0.98$ であり、これは2つの変数間に非常に強い正の線形関係があることを示しています。</p>