決定係数R²の解釈に関する問題です。
1. 決定係数R²の定義
決定係数R²は、回帰モデルの当てはまりの良さを表す指標で、以下のように定義されます:
$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$
ここで:
- SSR(回帰平方和):モデルによって説明される変動
- SSE(残差平方和):モデルによって説明されない変動
- SST(全平方和):応答変数の総変動(SSR + SSE)
2. 決定係数R²の解釈
決定係数R²は、回帰モデルによって説明される応答変数の変動の割合を表します。R²は0から1の間の値をとり、1に近いほどモデルの当てはまりが良いことを示します。
R² = 0.64の場合、応答変数の変動の64%が回帰モデルによって説明されることを意味します。言い換えると、データの64%がモデルに適合し、残りの36%はモデルでは説明できない変動(誤差)です。
3. 他の選択肢の検討
他の選択肢について考えてみましょう:
- 「説明変数と応答変数の間の相関係数は0.64である」:単回帰分析の場合、相関係数rの二乗が決定係数R²に等しくなります。つまり、R² = 0.64の場合、相関係数はr = ±0.8(正負の符号は関係の方向による)となります。
- 「説明変数が1単位増加すると、応答変数は平均して0.64単位増加する」:これは回帰係数β₁(傾き)の解釈であり、決定係数R²の解釈ではありません。
- 「回帰直線の傾きは0.64である」:これも回帰係数β₁に関する記述であり、決定係数R²とは関係ありません。
- 「予測値と実測値の差の平均は0.64である」:これは残差の平均に関する記述ですが、最小二乗法で推定された回帰モデルでは、残差の平均は常に0になります。
決定係数R²に関する注意点:
- R²は説明変数を追加するほど増加する傾向があります。そのため、複数の説明変数がある場合は、自由度調整済み決定係数(adjusted R²)を用いることがあります。
- R²が高いからといって、必ずしも因果関係があるわけではありません。相関関係と因果関係は区別する必要があります。
- R²は外れ値の影響を受けやすいため、データの可視化や残差分析と併せて解釈することが重要です。
- R²は予測精度の指標としては不十分な場合があります。予測の評価には、交差検証や予測誤差の指標(RMSE、MAEなど)も考慮すべきです。
- 非線形関係がある場合、線形回帰モデルのR²は低くなる可能性があります。
したがって、決定係数R²が0.64であるという結果の解釈として最も適切なものは「応答変数の変動の64%が回帰モデルによって説明される」です。