この問題では、統計学の基礎である単回帰分析における最小二乗法による回帰係数の推定について理解を深めます。
単回帰モデルとは?
単回帰モデルは、1つの説明変数$X$と1つの目的変数$Y$の関係を線形式で表現したモデルです:
$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i$
ここで:
- $\beta_0$:切片(intercept)
- $\beta_1$:回帰係数(slope)
- $\varepsilon_i$:誤差項(error term)
最小二乗法の原理
最小二乗法は、残差平方和を最小化することで回帰係数を推定する手法です。残差平方和$S$は:
$S = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2$
この$S$を最小化する$\hat{\beta}_0$と$\hat{\beta}_1$を求めます。
最小二乗推定量の導出
1. 正規方程式の導出
$S$を$\beta_0$と$\beta_1$で偏微分し、0と置くことで正規方程式を得ます:
$\frac{\partial S}{\partial \beta_0} = -2\sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_i) = 0$
$\frac{\partial S}{\partial \beta_1} = -2\sum_{i=1}^n (Y_i - \beta_0 - \beta_1 X_i)X_i = 0$
2. 回帰係数の最小二乗推定量
正規方程式を解くことで、以下の推定量が得られます:
$\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2}$
$\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}$
最小二乗推定量の性質
- 不偏性:$E[\hat{\beta}_1] = \beta_1$、$E[\hat{\beta}_0] = \beta_0$
- 一致性:サンプルサイズが大きくなると真の値に収束
- BLUE性質:線形不偏推定量の中で最小分散(ガウス・マルコフ定理)
- 正規性:誤差項が正規分布に従う場合、推定量も正規分布に従う
問題の解法
1. 与えられた情報の整理
- $\sum_{i=1}^n (X_i - \bar{X})^2 = 50$:説明変数の偏差平方和
- $\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y}) = 30$:説明変数と目的変数の偏差積和
2. 回帰係数の計算
最小二乗推定量の公式に代入:
$\hat{\beta}_1 = \frac{\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^n (X_i - \bar{X})^2} = \frac{30}{50} = 0.6$
結果の解釈
$\hat{\beta}_1 = 0.6$は、説明変数$X$が1単位増加すると、目的変数$Y$が平均的に0.6単位増加することを意味します。これは正の相関関係を示しており、$X$と$Y$の間に正の線形関係があることを表しています。
ポイント:
実際の分析では、推定された回帰係数の統計的有意性を検定し、モデルの適合度(決定係数$R^2$など)や残差分析による診断も重要です。また、回帰係数の信頼区間を求めることで、推定の不確実性を評価することも必要です。