情報量エントロピー(シャノンエントロピー)
情報量エントロピーは、情報理論における基本的な概念で、確率分布が持つ不確かさや乱雑さの度合いを表す尺度です。言い換えると、ある確率変数から得られる情報の平均量(情報量の期待値)を示します。
クラス \(i\) が出現する確率を \(P(i)\) とするとき、エントロピー \(H\) は以下の式で定義されます。対数の底として2を用いる場合、単位はビット(bit)になります。
$H = - \sum_{i} P(i) \log_b P(i)$
ここで、\(b\) は対数の底(通常は2、e、または10)です。機械学習、特に決定木の分野では底として2がよく使われます。\(-\log_b P(i)\) は、クラス \(i\) が発生したときに得られる情報量(自己情報量)であり、エントロピーはその期待値(情報量の期待値)を表します。マイナス符号は、確率(0から1)の対数が負または0になるため、エントロピーが非負の値になるように付けられています。
今回の問題における計算
与えられたクラスの出現確率は以下の通りです。
- \(P(A)=0.5\)
- \(P(B)=0.25\)
- \(P(C)=0.25\)
また、計算に必要な対数値が与えられています: \(\log_2(0.5) = -1\) および \(\log_2(0.25) = -2\)。
エントロピーの公式(底は2)にこれらの値を代入します。
$ H = - [ P(A) \log_2 P(A) + P(B) \log_2 P(B) + P(C) \log_2 P(C) ]
= - [ (0.5 \times (-1)) + (0.25 \times (-2)) + (0.25 \times (-2)) ]
= - [ -1.5 ]
= 1.5$
したがって、この確率分布のエントロピーは 1.5 ビット です。
エントロピーの性質と応用
- 最小値: あるクラスの確率が1で、他のクラスの確率が0の場合(完全に純粋な状態)、エントロピーは最小値0をとります。不確かさがない状態です。
- 最大値: すべてのクラスの確率が等しい場合(最も不確かさが高い状態)、エントロピーは最大値 \(\log_b k\) をとります(\(k\)はクラス数)。この例では3クラスなので、最大値は \(\log_2 3 \approx 1.585\) ビットです。計算結果の1.5は、クラスAの確率がやや高いものの、かなり分布がばらけている(不確かさが高い)ことを示しています。
- 応用(決定木): 決定木アルゴリズムでは、データを分割する際に「情報利得(Information Gain)」という指標が使われます。これは、分割前のエントロピーから分割後のエントロピー(各分割先のエントロピーの加重平均)を引いたもので、エントロピーを最も大きく減少させる(=不確かさを最も減らす)分割を選択します。