青の統計学-DS Playground-

第1章:相関と単回帰分析

Stage 5:回帰・分散分析・応用


この章で学ぶこと

「勉強時間が増えると成績は上がるか」「気温が上がるとアイスの売上は増えるか」——2つの変数の間にどのような関係があるかを定量的に分析する手法が、相関分析回帰分析 です。

この章では、2変数の関係を数値と式で表す方法を学びます。


1. 相関係数

関連教材(青の統計学)

散布図と相関の方向

2変数の関係を可視化するには散布図(scatter plot)を使います。

相関の種類

  • 正の相関:一方が増えると他方も増える傾向
  • 負の相関:一方が増えると他方は減る傾向
  • 無相関:特定の傾向が見られない

Pearson の積率相関係数 r

2変数 $x$、$y$ の線形な関連の強さと方向を1つの数値で表します。

$r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i - \bar{y})^2}}$

分子は $x$ と $y$ の共分散(同じ方向にズレるほど大きくなる)、分母はそれぞれの標準偏差の積で正規化しています。

r の範囲と解釈

$-1 \leq r \leq 1$

r の値 解釈の目安
$r = 1$ 完全な正の線形関係
$0.7 \leq r < 1$ 強い正の相関
$0.3 \leq r < 0.7$ 中程度の正の相関
$-0.3 < r < 0.3$ ほぼ無相関
$-0.7 < r \leq -0.3$ 中程度の負の相関
$r = -1$ 完全な負の線形関係

この目安は分野によって異なります。社会科学では $|r| \geq 0.3$ を有意な相関とみなすことも多く、物理計測では $|r| \geq 0.99$ が求められることもあります。

相関係数の注意点

① 相関は因果ではない

「アイスの売上と溺死者数には強い正の相関がある」——しかし、アイスが溺死を引き起こすわけではありません。気温という交絡変数が両方を動かしているだけです。

相関があっても因果関係があるとは言えません(第1章で扱った交絡の問題)。

② 外れ値の影響

Pearson の r は外れ値に敏感です。たった1点の外れ値が r を大きく変えることがあります。散布図を必ず確認しましょう。

③ 線形関係のみを捉える

r は「線形な」関係の強さを測ります。$U$ 字型などの非線形関係は r に反映されないことがあります。

相関係数が0でも関係がある例


2. 単回帰モデル

関連教材(青の統計学)

モデルの形

変数 $x$(説明変数)から変数 $y$(目的変数)を予測する単回帰モデルは次の式で表します。

$y = \beta_0 + \beta_1 x + \varepsilon$

  • $\beta_0$:切片(intercept)。$x = 0$ のときの $y$ の期待値
  • $\beta_1$:回帰係数(slope)。$x$ が1単位増えたときの $y$ の変化量
  • $\varepsilon$:誤差項(error term)。モデルで説明できない変動。$\varepsilon \sim N(0, \sigma^2)$ を仮定

最小二乗法(OLS)

データに最もよく当てはまる直線を求める方法が最小二乗法(Ordinary Least Squares)です。

残差(residual)とは、実際の値 $y_i$ と予測値 $\hat{y}_i$ の差です。

$e_i = y_i - \hat{y}_i$

最小二乗法は、残差の2乗和(RSS)を最小にする $\hat{\beta}_0$、$\hat{\beta}_1$ を求めます。

$\text{RSS} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2$

回帰直線と残差


3. 回帰係数の推定

RSS を最小化する条件(偏微分 = 0)を解くと、推定量の公式が得られます。

回帰係数 $\hat{\beta}_1$

$\hat{\beta}_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}$

  • $S_{xy}$:$x$ と $y$ の共分散の分子(偏差積和)
  • $S_{xx}$:$x$ の分散の分子(偏差平方和)

相関係数 $r$ と標準偏差の関係でも書けます:

$\hat{\beta}_1 = r \cdot \frac{s_y}{s_x}$

切片 $\hat{\beta}_0$

回帰直線は必ず $(\bar{x}, \bar{y})$ を通ります。

$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$

計算例

勉強時間($x$)と試験得点($y$)のデータ5件:

$x$(時間) $y$(点)
1 50
2 55
3 65
4 70
5 80

$\bar{x} = 3$、$\bar{y} = 64$

$S_{xx} = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 4+1+0+1+4 = 10$

$S_{xy} = (1-3)(50-64) + (2-3)(55-64) + (3-3)(65-64) + (4-3)(70-64) + (5-3)(80-64)$ $= (-2)(-14) + (-1)(-9) + (0)(1) + (1)(6) + (2)(16) = 28+9+0+6+32 = 75$

$\hat{\beta}_1 = \frac{75}{10} = 7.5, \quad \hat{\beta}_0 = 64 - 7.5 \times 3 = 64 - 22.5 = 41.5$

推定された回帰式:$\hat{y} = 41.5 + 7.5x$

解釈:勉強時間が1時間増えると、試験得点は平均7.5点上がると推定されます。


4. 残差と当てはまり

残差プロット

残差 $e_i = y_i - \hat{y}_i$ を $x_i$(または $\hat{y}_i$)に対してプロットします。

良い残差プロット:ランダムに散らばっており、特定のパターンがない。

問題のある残差プロット

  • U字型・逆U字型 → 非線形関係が存在する可能性
  • ラッパー状(ばらつきが大きくなる) → 分散不均一性(heteroscedasticity)
  • 外れ値の存在

残差プロット ── 良い例と悪い例

決定係数 $R^2$

回帰モデルが $y$ の変動をどれだけ説明できているかを示す指標です。

$R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} = 1 - \frac{\sum(y_i - \hat{y}_i)^2}{\sum(y_i - \bar{y})^2}$

  • $\text{TSS}$:$y$ の全変動(Total Sum of Squares)
  • $\text{RSS}$:回帰で説明できなかった変動(残差平方和)

$R^2 = 0.85$ なら「$y$ の変動の85%をモデルが説明している」という意味です。

単回帰では $R^2 = r^2$(相関係数の2乗)が成り立ちます。

$R^2$ が高いからといって「良いモデル」とは限りません。変数を増やせば $R^2$ は必ず上がりますが、過学習のリスクもあります(重回帰で詳しく扱います)。


5. 回帰係数の検定

$\hat{\beta}_1$ はデータから推定した値です。「母集団では $\beta_1 = 0$($x$ と $y$ に線形関係がない)ではないか」を検定します。

検定統計量

$t = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)}, \quad \text{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}}$

  • $s = \sqrt{\text{RSS}/(n-2)}$:残差の標準誤差(自由度 $n-2$)
  • この統計量は自由度 $n-2$ の $t$ 分布に従います

仮説

$H_0: \beta_1 = 0 \quad \text{(}x\text{ は }y\text{ を予測しない)}$ $H_1: \beta_1 \neq 0$

$p < 0.05$ なら $\beta_1 = 0$ を棄却でき、「$x$ は $y$ の有意な予測因子だ」と言えます。


演習問題

問題1

次のデータについて Pearson の相関係数 $r$ を計算してください。

$x$ 2 4 6 8
$y$ 3 7 5 9
解答を見る

$\bar{x} = 5$、$\bar{y} = 6$

偏差:

$x_i$ $y_i$ $x_i - \bar{x}$ $y_i - \bar{y}$ $(x_i-\bar{x})^2$ $(y_i-\bar{y})^2$
2 3 -3 -3 9 9 9
4 7 -1 1 -1 1 1
6 5 1 -1 -1 1 1
8 9 3 3 9 9 9
合計 16 20 20

$r = \frac{16}{\sqrt{20 \times 20}} = \frac{16}{20} = 0.80$

強い正の相関があります。


問題2

以下のデータから単回帰式 $\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x$ を求め、$x = 6$ のときの予測値を計算してください。

$x$(広告費・万円) $y$(売上・万円)
1 10
3 20
5 28
7 38
9 44
解答を見る

$\bar{x} = 5$、$\bar{y} = 28$

$S_{xx} = (1-5)^2 + (3-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2 = 16+4+0+4+16 = 40$

$S_{xy} = (1-5)(10-28) + (3-5)(20-28) + (5-5)(28-28) + (7-5)(38-28) + (9-5)(44-28)$ $= (-4)(-18) + (-2)(-8) + 0 + (2)(10) + (4)(16) = 72+16+0+20+64 = 172$

$\hat{\beta}_1 = \frac{172}{40} = 4.3$

$\hat{\beta}_0 = 28 - 4.3 \times 5 = 28 - 21.5 = 6.5$

回帰式:$\hat{y} = 6.5 + 4.3x$

$x = 6$ のとき:$\hat{y} = 6.5 + 4.3 \times 6 = 6.5 + 25.8 = 32.3$(万円)

解釈:広告費が6万円のとき、売上は約32.3万円と予測されます。また、広告費が1万円増えるごとに売上は平均4.3万円増加すると推定されます。


問題3

次の記述について、正しいものには○、誤りには×をつけ、理由を説明してください。

(1) 相関係数 $r = 0.9$ なら、$x$ は $y$ の原因である。

(2) 回帰分析で $R^2 = 0.70$ は「予測の70%が正確だ」という意味である。

(3) 残差プロットにU字型のパターンが見られたら、線形モデルの当てはまりに問題がある可能性がある。

解答を見る

(1) ×

相関係数が高くても因果関係は保証されません。第三の変数(交絡変数)が両方を動かしている可能性があり、相関だけでは因果の方向性も確認できません。因果推論には、実験や操作変数法などの別の手法が必要です。

(2) ×

$R^2 = 0.70$ は「$y$ の変動の70%をモデルが説明している」という意味です。「予測の正確さ」を表すものではありません。$R^2$ はモデルの説明力の指標であり、個々の予測の精度とは異なります。

(3) ○

残差にU字型のパターンがあるということは、$x$ と $y$ の間に線形では捉えられない非線形な関係が存在している可能性を示します。この場合、$x^2$ の項を加える(多項式回帰)、対数変換するなどの対応を検討します。


まとめ

概念 内容
相関係数 $r$ 2変数の線形関係の強さ。$-1 \leq r \leq 1$
単回帰モデル $y = \beta_0 + \beta_1 x + \varepsilon$
最小二乗法 残差の2乗和を最小化する推定法
$\hat{\beta}_1$ $S_{xy}/S_{xx}$。$x$ が1単位増えたときの $y$ の変化量
決定係数 $R^2$ $y$ の変動のうちモデルが説明する割合(単回帰では $r^2$)
回帰係数の検定 $H_0: \beta_1 = 0$ を $t$ 検定で確認

次の章では、$R^2$・F検定・信頼区間など、回帰分析の解釈をより深く掘り下げます。