回帰分析編

単回帰分析、回帰係数の推定と検定、予測と信頼区間、実験計画の基礎に関する問題

決定係数の解釈レベル2

単回帰分析において、決定係数R²が0.64であった。この結果の解釈として最も適切なものはどれか。

解説

解答と解説を表示

決定係数R²の解釈に関する問題です。

1. 決定係数R²の定義

決定係数R²は、回帰モデルの当てはまりの良さを表す指標で、以下のように定義されます：

$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$

ここで：

2. 決定係数R²の解釈

決定係数R²は、回帰モデルによって説明される応答変数の変動の割合を表します。R²は0から1の間の値をとり、1に近いほどモデルの当てはまりが良いことを示します。

R² = 0.64の場合、応答変数の変動の64%が回帰モデルによって説明されることを意味します。言い換えると、データの64%がモデルに適合し、残りの36%はモデルでは説明できない変動（誤差）です。

3. 他の選択肢の検討

他の選択肢について考えてみましょう：

「説明変数と応答変数の間の相関係数は0.64である」：単回帰分析の場合、相関係数rの二乗が決定係数R²に等しくなります。つまり、R² = 0.64の場合、相関係数はr = ±0.8（正負の符号は関係の方向による）となります。
「説明変数が1単位増加すると、応答変数は平均して0.64単位増加する」：これは回帰係数β₁（傾き）の解釈であり、決定係数R²の解釈ではありません。
「回帰直線の傾きは0.64である」：これも回帰係数β₁に関する記述であり、決定係数R²とは関係ありません。
「予測値と実測値の差の平均は0.64である」：これは残差の平均に関する記述ですが、最小二乗法で推定された回帰モデルでは、残差の平均は常に0になります。

決定係数R²に関する注意点：

R²は説明変数を追加するほど増加する傾向があります。そのため、複数の説明変数がある場合は、自由度調整済み決定係数（adjusted R²）を用いることがあります。
R²が高いからといって、必ずしも因果関係があるわけではありません。相関関係と因果関係は区別する必要があります。
R²は外れ値の影響を受けやすいため、データの可視化や残差分析と併せて解釈することが重要です。
R²は予測精度の指標としては不十分な場合があります。予測の評価には、交差検証や予測誤差の指標（RMSE、MAEなど）も考慮すべきです。
非線形関係がある場合、線形回帰モデルのR²は低くなる可能性があります。

したがって、決定係数R²が0.64であるという結果の解釈として最も適切なものは「応答変数の変動の64%が回帰モデルによって説明される」です。

問題検索