重回帰モデル (Multiple Linear Regression) とは?
入力変数(説明変数)が複数ある場合の線形回帰を重回帰と呼びます。目的変数 \(y\) を複数の説明変数 \(x_1, x_2, ..., x_p\) の線形結合で予測することで、より複雑な関係性を捉えようとします。
$\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + ... + w_p x_p = w_0 + \sum_{j=1}^{p} w_j x_j$
- \(\hat{y}\) : 目的変数 \(y\) の予測値(例: 家の価格)
- \(x_1, ..., x_p\) : \(p\) 個の説明変数(例: 広さ、築年数)。
- \(w_0\) : 切片。全ての説明変数が0のときの予測値。
- \(w_1, ..., w_p\) : 各説明変数に対応する係数(偏回帰係数)。他の変数を一定とした場合、その変数が1単位増加したときの \(\hat{y}\) の変化量。
学習では、最小二乗法などを用いて、実際の値 \(y\) と予測値 \(\hat{y}\) の誤差を最小にするパラメータ \(w_0, w_1, ..., w_p\) を求めます。
予測値の計算
学習済みのモデル(家の価格予測):
$ \hat{y} = 500 + 80 x_1 - 5 x_2$
予測したい家の情報:
- 広さ \(x_1 = 100\) (平方メートル)
- 築年数 \(x_2 = 10\) (年)
モデルに値を代入して予測価格 \(\hat{y}\) (単位: 万円) を計算します:
$ \hat{y} = 500 + (80 \times 100) + (-5 \times 10)
= 500 + 8000 - 50
= 8450 $
したがって、予測価格は 8450 (万円) です。
重要ポイント:重回帰の解釈と注意点
- 係数の解釈: \(w_1=80\) は「築年数が同じなら、広さが1㎡増えると価格が80万円上がる」、\(w_2=-5\) は「広さが同じなら、築年数が1年増えると価格が5万円下がる」と解釈できます(他の変数を固定した場合)。
- 多重共線性: 説明変数間に強い相関があると(例: 部屋数と広さ)、係数の推定が不安定になり解釈が困難になることがあります。
- 変数選択: どの説明変数をモデルに含めるかが重要です。
- 線形性の仮定: 説明変数と目的変数の間に線形関係を仮定しています。非線形関係がある場合は、モデルの工夫が必要です。
- 適用例: 複数の要因が結果に影響する現象の分析・予測(例: 顧客の購買額予測、株価予測の要因分析)。