数学編

データサイエンスの基礎に必要な数学的素養

情報量エントロピー レベル1

ある3つのクラス (A, B, C) があり、それぞれの出現確率が $P(A)=0.5, P(B)=0.25, P(C)=0.25$ であるとします。この確率分布のエントロピー \(H\) を計算してください。エントロピーは $H = -\sum_{i} P(i) \log_2 P(i)$ で計算され、\(\log_2(0.5) = -1, \log_2(0.25) = -2\) です。

解説
解答と解説を表示
<h4>情報量エントロピー(シャノンエントロピー)</h4> <p>情報量エントロピーは、情報理論における基本的な概念で、確率分布が持つ<strong>不確かさ</strong>や<strong>乱雑さ</strong>の度合いを表す尺度です。言い換えると、ある確率変数から得られる情報の平均量(情報量の期待値)を示します。</p> <p>クラス \(i\) が出現する確率を \(P(i)\) とするとき、エントロピー \(H\) は以下の式で定義されます。対数の底として2を用いる場合、単位はビット(bit)になります。</p> <div class="formula"> $H = - \sum_{i} P(i) \log_b P(i)$ </div> <p>ここで、\(b\) は対数の底(通常は2、e、または10)です。機械学習、特に決定木の分野では底として2がよく使われます。\(-\log_b P(i)\) は、クラス \(i\) が発生したときに得られる情報量(自己情報量)であり、エントロピーはその期待値(情報量の期待値)を表します。マイナス符号は、確率(0から1)の対数が負または0になるため、エントロピーが非負の値になるように付けられています。</p> <h5>今回の問題における計算</h5> <p>与えられたクラスの出現確率は以下の通りです。</p> <ul> <li>\(P(A)=0.5\)</li> <li>\(P(B)=0.25\)</li> <li>\(P(C)=0.25\)</li> </ul> <p>また、計算に必要な対数値が与えられています: \(\log_2(0.5) = -1\) および \(\log_2(0.25) = -2\)。</p> <p>エントロピーの公式(底は2)にこれらの値を代入します。</p> <div class="formula"> $ H = - [ P(A) \log_2 P(A) + P(B) \log_2 P(B) + P(C) \log_2 P(C) ] = - [ (0.5 \times (-1)) + (0.25 \times (-2)) + (0.25 \times (-2)) ] = - [ -1.5 ] = 1.5$ </div> <p>したがって、この確率分布のエントロピーは <strong>1.5 ビット</strong> です。</p> <div class=\"key-point\"> <div class=\"key-point-title\">エントロピーの性質と応用</div> <ul> <li><strong>最小値:</strong> あるクラスの確率が1で、他のクラスの確率が0の場合(完全に純粋な状態)、エントロピーは最小値0をとります。不確かさがない状態です。</li> <li><strong>最大値:</strong> すべてのクラスの確率が等しい場合(最も不確かさが高い状態)、エントロピーは最大値 \(\log_b k\) をとります(\(k\)はクラス数)。この例では3クラスなので、最大値は \(\log_2 3 \approx 1.585\) ビットです。計算結果の1.5は、クラスAの確率がやや高いものの、かなり分布がばらけている(不確かさが高い)ことを示しています。</li> <li><strong>応用(決定木):</strong> 決定木アルゴリズムでは、データを分割する際に「情報利得(Information Gain)」という指標が使われます。これは、分割前のエントロピーから分割後のエントロピー(各分割先のエントロピーの加重平均)を引いたもので、エントロピーを最も大きく減少させる(=不確かさを最も減らす)分割を選択します。</li> </ul> </div>
問題 1/1
カテゴリ一覧に戻る