ダミー変数を含む回帰分析における係数の解釈について理解する問題です。
ダミー変数とは
ダミー変数は、質的変数(カテゴリカル変数)を回帰分析で扱うために用いる0または1の値を取る変数です。
与えられた回帰式: $y = a + bx + cD$
ここで:
- x: 連続変数(説明変数)
- D: ダミー変数(0または1の値)
- a: 切片
- b: xの回帰係数
- c: ダミー変数の回帰係数
係数cの解釈
D = 0のとき(基準カテゴリ):
$E[y|x, D=0] = a + bx$
D = 1のとき(比較カテゴリ):
$E[y|x, D=1] = a + bx + c$
係数cの意味:
係数cは、xの値が同じときの「D=1のグループ」と「D=0のグループ」の平均的な差を表します。
$c = E[y|x, D=1] - E[y|x, D=0]$
「他条件一定」の重要性:
係数cは、他の説明変数(この場合x)の値を固定した上での比較を表します。これが「ceteris paribus」(他の条件が等しい場合)の考え方です。
ダミー変数回帰のポイント
係数の解釈:
- c > 0: D=1のグループの方がD=0より平均的にc単位高い
- c < 0: D=1のグループの方がD=0より平均的に|c|単位低い
- c = 0: 両グループ間に平均的な差がない
実用例:
- 性別ダミー(男性=0, 女性=1)における賃金差
- 学歴ダミー(高校卒=0, 大学卒=1)における所得差
- 治療ダミー(対照群=0, 治療群=1)における効果
注意点:
- 基準カテゴリの選択: 解釈は基準の取り方に依存
- 交互作用項: x×D項があると傾きも変化
- 多重ダミー: k個カテゴリならk-1個のダミー変数
実際の分析では、ダミー変数の統計的有意性もt検定で確認し、グループ間に統計的に有意な差があるかを検討することが重要です。
したがって、係数cの適切な解釈はD=1のときの平均的な水準差(他条件一定)です。