Parcourir la source

modified chapter4.md

wb.zhangjintian il y a 7 ans
Parent
commit
e81194d37d
1 fichiers modifiés avec 6 ajouts et 2 suppressions
  1. 6 2
      Chapter4/chapter4.md

+ 6 - 2
Chapter4/chapter4.md

@@ -15,7 +15,7 @@ $$
 
 相反,假设样本D中只有一类样本,此时信息熵最小,其值为
 $$
-Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0此时样本的纯度最大。
+Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0
 $$
 此时样本的纯度最大。
 
@@ -47,7 +47,11 @@ IV(a) 是特征 a 的熵。
 
 假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$,则 $D$ 的**基尼值**为
 $$
-Gini(p)=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p{k'}}=\sum_{k=1}^{|y|}{p_k}{(1-p_k)}=1-\sum_{k=1}^{|y|}p_k^2 \tag {4.5}
+\begin{split}
+Gini(p) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p{k'}}\\
+&=\sum_{k=1}^{|y|}{p_k}{(1-p_k)} \\
+&=1-\sum_{k=1}^{|y|}p_k^2 
+\end{split}\tag {4.5}
 $$
 
 # 4.7 - 4.8