<p>ダミー変数の基本的な理解と利用方法に関する問題です。</p>
<p class='key-point'>ダミー変数はカテゴリカルな情報を数値に変換し、回帰モデルに組み込むためのテクニックです。</p>
<p class='step'>1. ダミー変数とは</p>
<p>回帰分析では通常、説明変数として数値データを用いますが、性別(男性、女性)、地域(A地域、B地域、C地域)のようなカテゴリカル変数を扱いたい場合があります。このような場合に、カテゴリカル変数を0と1で表現する数値変数に変換したものをダミー変数(またはインジケータ変数)と呼びます。</p>
<p class='step'>2. ダミー変数の作成方法</p>
<p>カテゴリ数がk個あるカテゴリカル変数に対して、通常k-1個のダミー変数を作成します。1つのカテゴリを「基準カテゴリ(参照カテゴリ)」とし、残りのカテゴリに対してダミー変数を作成します。</p>
<p>例:血液型(A, B, AB, O)の場合。O型を基準カテゴリとすると、以下の3つのダミー変数を作成できます。</p>
<ul>
<li>$D_A = 1$(A型の場合)、$0$(それ以外)</li>
<li>$D_B = 1$(B型の場合)、$0$(それ以外)</li>
<li>$D_{AB} = 1$(AB型の場合)、$0$(それ以外)</li>
</ul>
<p>O型の場合は、$D_A=0, D_B=0, D_{AB}=0$ となります。</p>
<p class='step'>3. なぜk-1個なのか?(完全な多重共線性の回避)</p>
<p>もしk個全てのカテゴリに対してダミー変数を作成してしまうと(例:上記の血液型で$D_O$も作成すると)、これらのダミー変数の合計が常に1となり、ダミー変数間に完全な線形従属関係が生じます。これは「ダミー変数の罠」とも呼ばれ、完全な多重共線性を引き起こし、回帰係数の推定が不可能になります。そのため、1つを基準としてk-1個のダミー変数を用います。</p>
<p class='step'>4. ダミー変数の係数の解釈</p>
<p>ダミー変数の回帰係数は、基準カテゴリと比較した場合の、そのカテゴリが応答変数に与える平均的な影響の差を示します。</p>
<p>例:$Y = \beta_0 + \beta_1 D_A + \beta_2 D_B + \beta_3 D_{AB} + ...
lt;/p>
<ul>
<li>$\beta_1$:O型(基準)と比較したA型のYの平均値の差</li>
<li>$\beta_2$:O型(基準)と比較したB型のYの平均値の差</li>
</ul>
<p class='step'>5. 選択肢の検討</p>
<ul>
<li>「カテゴリ数がk個の場合、通常k-1個のダミー変数が作成される。」:正しい。</li>
<li>「ダミー変数は0または1の値をとる。」:正しい。</li>
<li>「全てのカテゴリに対してダミー変数を作成すると、完全な多重共線性が発生する可能性があるため、1つのカテゴリを基準(参照カテゴリ)とする。」:正しい。</li>
<li>「ダミー変数の係数は、参照カテゴリと比較したときの各カテゴリの平均的な影響を示す。」:正しい。</li>
<li>「ダミー変数は、応答変数が連続値の場合には利用できない。」:<strong>誤り</strong>。ダミー変数は説明変数として用いられるものであり、応答変数が連続値の線形回帰分析でも、応答変数が二値のロジスティック回帰分析でも利用できます。</li>
</ul>
<p>したがって、誤っている記述は「ダミー変数は、応答変数が連続値の場合には利用できない。」です。</p>