|
|
@@ -15,7 +15,7 @@ $$
|
|
|
|
|
|
相反,假设样本D中只有一类样本,此时信息熵最小,其值为
|
|
|
$$
|
|
|
-Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0此时样本的纯度最大。
|
|
|
+Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0
|
|
|
$$
|
|
|
此时样本的纯度最大。
|
|
|
|
|
|
@@ -47,7 +47,11 @@ IV(a) 是特征 a 的熵。
|
|
|
|
|
|
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$,则 $D$ 的**基尼值**为
|
|
|
$$
|
|
|
-Gini(p)=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p{k'}}=\sum_{k=1}^{|y|}{p_k}{(1-p_k)}=1-\sum_{k=1}^{|y|}p_k^2 \tag {4.5}
|
|
|
+\begin{split}
|
|
|
+Gini(p) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p{k'}}\\
|
|
|
+&=\sum_{k=1}^{|y|}{p_k}{(1-p_k)} \\
|
|
|
+&=1-\sum_{k=1}^{|y|}p_k^2
|
|
|
+\end{split}\tag {4.5}
|
|
|
$$
|
|
|
|
|
|
# 4.7 - 4.8
|