この問題では、回帰分析において評価指標の一つである決定係数(Coefficient of Determination)について理解を深めます。
決定係数とは?
決定係数$R^2$は、回帰モデルが目的変数の変動をどの程度説明できるかを表す指標です。0から1の値を取り、1に近いほどモデルの説明力が高いことを意味します。
変動の分解
回帰分析では、目的変数$Y$の全変動を以下の3つに分解します:
$\underbrace{\sum_{i=1}^n (Y_i - \bar{Y})^2}_{\text{全変動 (TSS)}} = \underbrace{\sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2}_{\text{回帰変動 (RSS)}} + \underbrace{\sum_{i=1}^n (Y_i - \hat{Y}_i)^2}_{\text{残差変動 (ESS)}}$
各変動の意味:
- 全変動(TSS: Total Sum of Squares):目的変数の総変動量
- 回帰変動(RSS: Regression Sum of Squares):回帰モデルで説明できる変動
- 残差変動(ESS: Error Sum of Squares):回帰モデルで説明できない変動
決定係数の定義と計算
決定係数は以下のように定義されます:
$R^2 = \frac{\text{回帰変動}}{\text{全変動}} = \frac{RSS}{TSS}
または、残差変動を用いて:$
$R^2 = 1 - \frac{\text{残差変動}}{\text{全変動}} = 1 - \frac{ESS}{TSS}$
決定係数の性質
- 範囲:$0 \leq R^2 \leq 1$
- 解釈:$R^2 = 0.75$なら「モデルが目的変数の変動の75%を説明」
- 単回帰での関係:$R^2 = r^2$(相関係数の2乗)
- 説明変数追加の効果:説明変数を追加すると$R^2$は増加(または同じ)
問題の解法
1. 与えられた情報の整理
- 全変動(TSS)= 100
- 回帰変動(RSS)= 75
- 残差変動(ESS)= TSS - RSS = 100 - 75 = 25
2. 決定係数の計算
決定係数の定義式に代入:
$R^2 = \frac{RSS}{TSS} = \frac{75}{100} = 0.75$
または、残差変動を用いた式で確認:
$R^2 = 1 - \frac{ESS}{TSS} = 1 - \frac{25}{100} = 1 - 0.25 = 0.75$
結果の解釈
$R^2 = 0.75$は以下を意味します:
- 回帰モデルが目的変数の変動の75%を説明している
- 残りの25%は説明変数では説明できない変動(誤差)
- 比較的良好な適合度を示している
決定係数の解釈基準
一般的な解釈の目安:
| $R^2$の値 | 解釈 |
|---|
| 0.8以上 | 非常に良い適合 |
| 0.6-0.8 | 良い適合 |
| 0.4-0.6 | 中程度の適合 |
| 0.4未満 | 低い適合 |
注意点:
決定係数が高いからといって必ずしも良いモデルとは限りません。過学習の可能性や、説明変数の数による影響(自由度調整済み決定係数)、因果関係と相関関係の区別なども考慮する必要があります。