情報量エントロピー - 問題演習問題10

情報量エントロピーレベル1

ある3つのクラス (A, B, C) があり、それぞれの出現確率が $P(A)=0.5, P(B)=0.25, P(C)=0.25$ であるとします。この確率分布のエントロピー $H$ を計算してください。エントロピーは $H = -\sum_{i} P(i) \log_2 P(i)$ で計算され、$\log_2(0.5) = -1, \log_2(0.25) = -2$ です。

解説

解答と解説を表示

<h4>情報量エントロピー（シャノンエントロピー）</h4> <p>情報量エントロピーは、情報理論における基本的な概念で、確率分布が持つ<strong>不確かさ</strong>や<strong>乱雑さ</strong>の度合いを表す尺度です。言い換えると、ある確率変数から得られる情報の平均量（情報量の期待値）を示します。</p> <p>クラス $i$ が出現する確率を $P(i)$ とするとき、エントロピー $H$ は以下の式で定義されます。対数の底として2を用いる場合、単位はビット（bit）になります。</p> <div class="formula"> $H = - \sum_{i} P(i) \log_b P(i)$ </div> <p>ここで、$b$ は対数の底（通常は2、e、または10）です。機械学習、特に決定木の分野では底として2がよく使われます。$-\log_b P(i)$ は、クラス $i$ が発生したときに得られる情報量（自己情報量）であり、エントロピーはその期待値（情報量の期待値）を表します。マイナス符号は、確率（0から1）の対数が負または0になるため、エントロピーが非負の値になるように付けられています。</p> <h5>今回の問題における計算</h5> <p>与えられたクラスの出現確率は以下の通りです。</p> <ul> <li>$P(A)=0.5$</li> <li>$P(B)=0.25$</li> <li>$P(C)=0.25$</li> </ul> <p>また、計算に必要な対数値が与えられています: $\log_2(0.5) = -1$ および $\log_2(0.25) = -2$。</p> <p>エントロピーの公式（底は2）にこれらの値を代入します。</p> <div class="formula"> $ H = - [ P(A) \log_2 P(A) + P(B) \log_2 P(B) + P(C) \log_2 P(C) ] = - [ (0.5 \times (-1)) + (0.25 \times (-2)) + (0.25 \times (-2)) ] = - [ -1.5 ] = 1.5$ </div> <p>したがって、この確率分布のエントロピーは <strong>1.5 ビット</strong> です。</p> <div class=\"key-point\"> <div class=\"key-point-title\">エントロピーの性質と応用</div> <ul> <li><strong>最小値:</strong> あるクラスの確率が1で、他のクラスの確率が0の場合（完全に純粋な状態）、エントロピーは最小値0をとります。不確かさがない状態です。</li> <li><strong>最大値:</strong> すべてのクラスの確率が等しい場合（最も不確かさが高い状態）、エントロピーは最大値 $\log_b k$ をとります（$k$はクラス数）。この例では3クラスなので、最大値は $\log_2 3 \approx 1.585$ ビットです。計算結果の1.5は、クラスAの確率がやや高いものの、かなり分布がばらけている（不確かさが高い）ことを示しています。</li> <li><strong>応用（決定木）:</strong> 決定木アルゴリズムでは、データを分割する際に「情報利得（Information Gain）」という指標が使われます。これは、分割前のエントロピーから分割後のエントロピー（各分割先のエントロピーの加重平均）を引いたもので、エントロピーを最も大きく減少させる（＝不確かさを最も減らす）分割を選択します。</li> </ul> </div>

数学編