決定係数の性質 - 回帰分析問題2 - 青の統計学-DS Playground-

決定係数の性質レベル1

回帰分析において、全変動$TSS = 100$、回帰変動$RSS = 75$のとき、決定係数$R^2$の値はいくらか。

解説

解答と解説を表示

<p>この問題では、回帰分析において評価指標の一つである<strong>決定係数（Coefficient of Determination）</strong>について理解を深めます。</p><h4>決定係数とは？</h4><p>決定係数$R^2$は、回帰モデルが<strong>目的変数の変動をどの程度説明できるか</strong>を表す指標です。0から1の値を取り、1に近いほどモデルの説明力が高いことを意味します。</p><h4>変動の分解</h4><p>回帰分析では、目的変数$Y$の全変動を以下の3つに分解します：</p><div class='formula'>$\underbrace{\sum_{i=1}^n (Y_i - \bar{Y})^2}_{\text{全変動 (TSS)}} = \underbrace{\sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2}_{\text{回帰変動 (RSS)}} + \underbrace{\sum_{i=1}^n (Y_i - \hat{Y}_i)^2}_{\text{残差変動 (ESS)}}

lt;/div><p><strong>各変動の意味：</strong></p><ul><li><strong>全変動（TSS: Total Sum of Squares）</strong>：目的変数の総変動量</li><li><strong>回帰変動（RSS: Regression Sum of Squares）</strong>：回帰モデルで説明できる変動</li><li><strong>残差変動（ESS: Error Sum of Squares）</strong>：回帰モデルで説明できない変動</li></ul><h4>決定係数の定義と計算</h4><p>決定係数は以下のように定義されます：</p><div class='formula'>$R^2 = \frac{\text{回帰変動}}{\text{全変動}} = \frac{RSS}{TSS}

または、残差変動を用いて：

lt;/p><div class='formula'>$R^2 = 1 - \frac{\text{残差変動}}{\text{全変動}} = 1 - \frac{ESS}{TSS}

lt;/div><div class='key-point'><div class='key-point-title'>決定係数の性質</div><ul><li><strong>範囲</strong>：$0 \leq R^2 \leq 1

lt;/li><li><strong>解釈</strong>：$R^2 = 0.75$なら「モデルが目的変数の変動の75%を説明」</li><li><strong>単回帰での関係</strong>：$R^2 = r^2$（相関係数の2乗）</li><li><strong>説明変数追加の効果</strong>：説明変数を追加すると$R^2$は必ず増加（または同じ）</li></ul></div><h4>問題の解法</h4><p class='step'>1. 与えられた情報の整理</p><ul><li>全変動（TSS）= 100</li><li>回帰変動（RSS）= 75</li><li>残差変動（ESS）= TSS - RSS = 100 - 75 = 25</li></ul><p class='step'>2. 決定係数の計算</p><p>決定係数の定義式に代入：</p><div class='formula'>$R^2 = \frac{RSS}{TSS} = \frac{75}{100} = 0.75

lt;/div><p>または、残差変動を用いた式で確認：</p><div class='formula'>$R^2 = 1 - \frac{ESS}{TSS} = 1 - \frac{25}{100} = 1 - 0.25 = 0.75

lt;/div><h4>結果の解釈</h4><p>$R^2 = 0.75$は以下を意味します：</p><ul><li>回帰モデルが目的変数の変動の<strong>75%を説明</strong>している</li><li>残りの25%は説明変数では説明できない変動（誤差）</li><li>比較的<strong>良好な適合度</strong>を示している</li></ul><h4>決定係数の解釈基準</h4><p>一般的な解釈の目安：</p><table style='width:80%; border-collapse: collapse; margin: 1em auto;'><tr style='background-color: #f5f5f5;'><th style='border: 1px solid #ddd; padding: 8px;'>$R^2$の値</th><th style='border: 1px solid #ddd; padding: 8px;'>解釈</th></tr><tr><td style='border: 1px solid #ddd; padding: 8px;'>0.8以上</td><td style='border: 1px solid #ddd; padding: 8px;'>非常に良い適合</td></tr><tr><td style='border: 1px solid #ddd; padding: 8px;'>0.6-0.8</td><td style='border: 1px solid #ddd; padding: 8px;'>良い適合</td></tr><tr><td style='border: 1px solid #ddd; padding: 8px;'>0.4-0.6</td><td style='border: 1px solid #ddd; padding: 8px;'>中程度の適合</td></tr><tr><td style='border: 1px solid #ddd; padding: 8px;'>0.4未満</td><td style='border: 1px solid #ddd; padding: 8px;'>低い適合</td></tr></table><p class='note'><strong>注意点：</strong><br>決定係数が高いからといって必ずしも良いモデルとは限りません。過学習の可能性や、説明変数の数による影響（自由度調整済み決定係数）、因果関係と相関関係の区別なども考慮する必要があります。</p>