ダミー変数の利用 - 問題演習問題19 - 青の統計学-DS Playground-

ダミー変数の利用レベル1

カテゴリカル変数を回帰分析に投入する際に用いられるダミー変数について、誤っている記述はどれか。

解説

解答と解説を表示

ダミー変数の基本的な理解と利用方法に関する問題です。 ダミー変数はカテゴリカルな情報を数値に変換し、回帰モデルに組み込むためのテクニックです。 1. ダミー変数とは 回帰分析では通常、説明変数として数値データを用いますが、性別（男性、女性）、地域（A地域、B地域、C地域）のようなカテゴリカル変数を扱いたい場合があります。このような場合に、カテゴリカル変数を0と1で表現する数値変数に変換したものをダミー変数（またはインジケータ変数）と呼びます。 2. ダミー変数の作成方法 カテゴリ数がk個あるカテゴリカル変数に対して、通常k-1個のダミー変数を作成します。1つのカテゴリを「基準カテゴリ（参照カテゴリ）」とし、残りのカテゴリに対してダミー変数を作成します。 例：血液型（A, B, AB, O）の場合。O型を基準カテゴリとすると、以下の3つのダミー変数を作成できます。 <ul> <li>$D_A = 1$（A型の場合）、$0$（それ以外）</li> <li>$D_B = 1$（B型の場合）、$0$（それ以外）</li> <li>$D_{AB} = 1$（AB型の場合）、$0$（それ以外）</li> </ul> O型の場合は、$D_A=0, D_B=0, D_{AB}=0$ となります。 3. なぜk-1個なのか？（完全な多重共線性の回避） もしk個全てのカテゴリに対してダミー変数を作成してしまうと（例：上記の血液型で$D_O$も作成すると）、これらのダミー変数の合計が常に1となり、ダミー変数間に完全な線形従属関係が生じます。これは「ダミー変数の罠」とも呼ばれ、完全な多重共線性を引き起こし、回帰係数の推定が不可能になります。そのため、1つを基準としてk-1個のダミー変数を用います。 4. ダミー変数の係数の解釈 ダミー変数の回帰係数は、基準カテゴリと比較した場合の、そのカテゴリが応答変数に与える平均的な影響の差を示します。 例：$Y = \beta_0 + \beta_1 D_A + \beta_2 D_B + \beta_3 D_{AB} + ...

lt;/p> <ul> <li>$\beta_1$：O型（基準）と比較したA型のYの平均値の差</li> <li>$\beta_2$：O型（基準）と比較したB型のYの平均値の差</li> </ul> 5. 選択肢の検討 <ul> <li>「カテゴリ数がk個の場合、通常k-1個のダミー変数が作成される。」：正しい。</li> <li>「ダミー変数は0または1の値をとる。」：正しい。</li> <li>「全てのカテゴリに対してダミー変数を作成すると、完全な多重共線性が発生する可能性があるため、1つのカテゴリを基準（参照カテゴリ）とする。」：正しい。</li> <li>「ダミー変数の係数は、参照カテゴリと比較したときの各カテゴリの平均的な影響を示す。」：正しい。</li> <li>「ダミー変数は、応答変数が連続値の場合には利用できない。」：誤り。ダミー変数は説明変数として用いられるものであり、応答変数が連続値の線形回帰分析でも、応答変数が二値のロジスティック回帰分析でも利用できます。</li> </ul> したがって、誤っている記述は「ダミー変数は、応答変数が連続値の場合には利用できない。」です。

回帰分析編