エントロピーは「クラスの混ざり具合」を数値化する
情報エントロピーは、クラス分布の不確かさを測る指標です。2クラス分類では次式で計算します。
$H=-\{p\log_2 p + (1-p)\log_2(1-p)\}$
ここで、今回は $p=0.8$(Aが8/10)です。
計算ステップ
- $-0.8\log_2(0.8) = -0.8\times(-0.322)=0.2576$
- $-0.2\log_2(0.2) = -0.2\times(-2.322)=0.4644$
- 合計 $H\approx 0.2576+0.4644=0.722$
したがって正解は 0.722 です。
なぜこの値になるか
- 比率が50:50に近いほど不確かさは高く、2クラスの最大値は1です。
- 80:20は偏りがあるため、1より小さい値になります。
- 100:0なら不確かさは0(完全に決まっている状態)です。
G検定での押さえどころ
- 厳密計算だけでなく、分布が均等に近いほどエントロピーが大きい直感を持つことが重要です。
- 決定木では、エントロピー減少量(情報利得)で分割候補を比較します。