重回帰分析における調整済み決定係数(adjusted R²)に関する問題です。
1. 決定係数(R²)の基本
決定係数R²は、回帰モデルの当てはまりの良さを表す指標で、以下のように定義されます:
$R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$
ここで:
- SSR(回帰平方和):モデルによって説明される変動
- SSE(残差平方和):モデルによって説明されない変動
- SST(全平方和):応答変数の総変動(SSR + SSE)
R²は0から1の間の値をとり、1に近いほどモデルの当てはまりが良いことを示します。
2. 決定係数(R²)の問題点
決定係数R²には、説明変数を追加するほど値が増加する(または少なくとも減少しない)という性質があります。これは、新しい説明変数を追加すると、それが実際には意味のない変数であっても、偶然によってSSEが減少し、R²が増加する可能性があるためです。
この性質により、説明変数の数が多いモデルを単純に比較すると、過剰適合(オーバーフィッティング)を促進してしまう可能性があります。
3. 調整済み決定係数(adjusted R²)
調整済み決定係数は、モデルの複雑さ(説明変数の数)に対してペナルティを課すことで、この問題に対処します。調整済み決定係数は以下のように定義されます:
$R_{adj}^2 = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)} = 1 - \frac{n-1}{n-p-1}(1-R^2)$
ここで:
調整済み決定係数の特徴:
- 説明変数を追加しても、その変数が応答変数の予測に十分な貢献をしない場合、調整済み決定係数は減少する可能性がある
- 不必要な説明変数を含むモデルよりも、真のモデルの方が高い調整済み決定係数を持つ傾向がある
- 調整済み決定係数は通常の決定係数よりも常に小さいか等しい
- 調整済み決定係数は負の値をとることもある
4. 選択肢の検討
各選択肢について検討します:
- 「調整済み決定係数は常に通常の決定係数よりも大きい値をとる」:誤りです。調整済み決定係数は通常の決定係数よりも常に小さいか等しい値をとります。
- 「調整済み決定係数は説明変数の数が増えても必ずしも増加しない」:正しいです。これが調整済み決定係数の主な利点であり、モデル選択において重要な特性です。
- 「調整済み決定係数は-1から1の間の値をとる」:誤りです。調整済み決定係数は負の値をとることもありますが、上限は1です。
- 「調整済み決定係数は外れ値の影響を受けない」:誤りです。調整済み決定係数も通常の決定係数と同様に外れ値の影響を受けます。
- 「調整済み決定係数は回帰係数の統計的有意性を直接反映する」:誤りです。調整済み決定係数はモデル全体の当てはまりの良さを評価するものであり、個々の回帰係数の統計的有意性を直接反映するものではありません。
モデル選択の指標:
調整済み決定係数以外にも、モデル選択のための指標がいくつかあります:
- AIC(赤池情報量規準):モデルの適合度と複雑さのバランスを評価する指標で、値が小さいほど良いモデルとされる
- BIC(ベイズ情報量規準):AICと同様だが、モデルの複雑さにより大きなペナルティを課す
- Mallows' Cp:予測誤差の期待値に基づく指標で、値が小さいほど良いモデルとされる
- 交差検証:データを訓練セットとテストセットに分割し、テストセットでの予測性能を評価する方法
これらの指標は、過剰適合を避けながら最適なモデルを選択するのに役立ちます。
したがって、調整済み決定係数が通常の決定係数よりも適切な指標とされる理由として最も適切なものは「調整済み決定係数は説明変数の数が増えても必ずしも増加しない」です。