線形回帰 (Linear Regression) とは?
線形回帰は、教師あり学習の基本的な手法の一つで、入力変数(説明変数)と出力変数(目的変数)の間の線形な関係をモデル化します。目的変数が連続値である回帰問題で広く用いられます。
単回帰モデル
入力変数が1つの場合を特に単回帰と呼びます。データ(\(x, y\))の関係を直線で表現します。
$\hat{y} = w_0 + w_1 x $
- \(\hat{y}\): 目的変数 \(y\) の予測値(例: 販売数)。
- \(x\): 入力変数(説明変数)。例: 商品の価格。
- \(w_0\): 切片 (Intercept) またはバイアス項。入力 \(x\) が0のときの予測値 \(\hat{y}\) 。
- \(w_1\): 傾き (Slope) または係数。入力 \(x\) が1単位増加したときに、予測値 \(\hat{y}\) がどれだけ変化するか。
学習では、実際の値 \(y\) と予測値 \(\hat{y}\) の誤差(例: 二乗誤差)を最小にするようにパラメータ \(w_0, w_1\) を決定します(最小二乗法)。
予測値の計算
学習済みのモデルとパラメータ:
$\hat{y} = 150 - 10 x$
予測したい入力値:
モデルに代入して予測販売数 \hat{y}を計算します:
$ \hat{y} = 150 - (10 \times 8)
= 150 - 80
= 70$
したがって、価格が8のときの予測販売数は 70 です。
重要ポイント:モデルの解釈と適用
- 解釈: このモデルでは、価格が1単位上昇するごとに販売数が10単位減少すると予測されます。切片150は価格0の場合の予測値ですが、現実的な範囲外の解釈には注意が必要です。
- 適用例: 広告費と売上、勉強時間とテストスコアなど、2つの連続変数間の関係性の分析・予測。
- 限界: 現実の関係は必ずしも線形ではないため、モデルの適用範囲や精度には限界があります。