解答と解説を表示
<h4>情報量エントロピー(シャノンエントロピー)</h4>
<p>情報量エントロピーは、情報理論における基本的な概念で、確率分布が持つ<strong>不確かさ</strong>や<strong>乱雑さ</strong>の度合いを表す尺度です。言い換えると、ある確率変数から得られる情報の平均量(情報量の期待値)を示します。</p>
<p>クラス \(i\) が出現する確率を \(P(i)\) とするとき、エントロピー \(H\) は以下の式で定義されます。対数の底として2を用いる場合、単位はビット(bit)になります。</p>
<div class="formula">
$H = - \sum_{i} P(i) \log_b P(i)$
</div>
<p>ここで、\(b\) は対数の底(通常は2、e、または10)です。機械学習、特に決定木の分野では底として2がよく使われます。\(-\log_b P(i)\) は、クラス \(i\) が発生したときに得られる情報量(自己情報量)であり、エントロピーはその期待値(情報量の期待値)を表します。マイナス符号は、確率(0から1)の対数が負または0になるため、エントロピーが非負の値になるように付けられています。</p>
<h5>今回の問題における計算</h5>
<p>与えられたクラスの出現確率は以下の通りです。</p>
<ul>
<li>\(P(A)=0.5\)</li>
<li>\(P(B)=0.25\)</li>
<li>\(P(C)=0.25\)</li>
</ul>
<p>また、計算に必要な対数値が与えられています: \(\log_2(0.5) = -1\) および \(\log_2(0.25) = -2\)。</p>
<p>エントロピーの公式(底は2)にこれらの値を代入します。</p>
<div class="formula">
$ H = - [ P(A) \log_2 P(A) + P(B) \log_2 P(B) + P(C) \log_2 P(C) ]
= - [ (0.5 \times (-1)) + (0.25 \times (-2)) + (0.25 \times (-2)) ]
= - [ -1.5 ]
= 1.5$
</div>
<p>したがって、この確率分布のエントロピーは <strong>1.5 ビット</strong> です。</p>
<div class=\"key-point\">
<div class=\"key-point-title\">エントロピーの性質と応用</div>
<ul>
<li><strong>最小値:</strong> あるクラスの確率が1で、他のクラスの確率が0の場合(完全に純粋な状態)、エントロピーは最小値0をとります。不確かさがない状態です。</li>
<li><strong>最大値:</strong> すべてのクラスの確率が等しい場合(最も不確かさが高い状態)、エントロピーは最大値 \(\log_b k\) をとります(\(k\)はクラス数)。この例では3クラスなので、最大値は \(\log_2 3 \approx 1.585\) ビットです。計算結果の1.5は、クラスAの確率がやや高いものの、かなり分布がばらけている(不確かさが高い)ことを示しています。</li>
<li><strong>応用(決定木):</strong> 決定木アルゴリズムでは、データを分割する際に「情報利得(Information Gain)」という指標が使われます。これは、分割前のエントロピーから分割後のエントロピー(各分割先のエントロピーの加重平均)を引いたもので、エントロピーを最も大きく減少させる(=不確かさを最も減らす)分割を選択します。</li>
</ul>
</div>