ダミー変数の基本的な理解と利用方法に関する問題です。
ダミー変数はカテゴリカルな情報を数値に変換し、回帰モデルに組み込むためのテクニックです。
1. ダミー変数とは
回帰分析では通常、説明変数として数値データを用いますが、性別(男性、女性)、地域(A地域、B地域、C地域)のようなカテゴリカル変数を扱いたい場合があります。このような場合に、カテゴリカル変数を0と1で表現する数値変数に変換したものをダミー変数(またはインジケータ変数)と呼びます。
2. ダミー変数の作成方法
カテゴリ数がk個あるカテゴリカル変数に対して、通常k-1個のダミー変数を作成します。1つのカテゴリを「基準カテゴリ(参照カテゴリ)」とし、残りのカテゴリに対してダミー変数を作成します。
例:血液型(A, B, AB, O)の場合。O型を基準カテゴリとすると、以下の3つのダミー変数を作成できます。
- $D_A = 1$(A型の場合)、$0$(それ以外)
- $D_B = 1$(B型の場合)、$0$(それ以外)
- $D_{AB} = 1$(AB型の場合)、$0$(それ以外)
O型の場合は、$D_A=0, D_B=0, D_{AB}=0$ となります。
3. なぜk-1個なのか?(完全な多重共線性の回避)
もしk個全てのカテゴリに対してダミー変数を作成してしまうと(例:上記の血液型で$D_O$も作成すると)、これらのダミー変数の合計が常に1となり、ダミー変数間に完全な線形従属関係が生じます。これは「ダミー変数の罠」とも呼ばれ、完全な多重共線性を引き起こし、回帰係数の推定が不可能になります。そのため、1つを基準としてk-1個のダミー変数を用います。
4. ダミー変数の係数の解釈
ダミー変数の回帰係数は、基準カテゴリと比較した場合の、そのカテゴリが応答変数に与える平均的な影響の差を示します。
例:$Y = \beta_0 + \beta_1 D_A + \beta_2 D_B + \beta_3 D_{AB} + ...$
- $\beta_1$:O型(基準)と比較したA型のYの平均値の差
- $\beta_2$:O型(基準)と比較したB型のYの平均値の差
5. 選択肢の検討
- 「カテゴリ数がk個の場合、通常k-1個のダミー変数が作成される。」:正しい。
- 「ダミー変数は0または1の値をとる。」:正しい。
- 「全てのカテゴリに対してダミー変数を作成すると、完全な多重共線性が発生する可能性があるため、1つのカテゴリを基準(参照カテゴリ)とする。」:正しい。
- 「ダミー変数の係数は、参照カテゴリと比較したときの各カテゴリの平均的な影響を示す。」:正しい。
- 「ダミー変数は、応答変数が連続値の場合には利用できない。」:誤り。ダミー変数は説明変数として用いられるものであり、応答変数が連続値の線形回帰分析でも、応答変数が二値のロジスティック回帰分析でも利用できます。
したがって、誤っている記述は「ダミー変数は、応答変数が連続値の場合には利用できない。」です。