|
@@ -2,7 +2,7 @@
|
|
|
$$Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
|
|
$$Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
|
|
|
[解析]:
|
|
[解析]:
|
|
|
|
|
|
|
|
-熵[^熵]是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
|
|
|
|
|
|
|
+熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
|
|
|
|
|
|
|
|
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ,则 $D$ 的信息熵为:
|
|
假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ,则 $D$ 的信息熵为:
|
|
|
|
|
|
|
@@ -51,6 +51,7 @@ IV(a) 是特征 a 的熵。
|
|
|
增益率对特征值较少的特征有一定偏好,因此 $C4.5$ **算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征,再从这些特征中选择增益率最高的**。
|
|
增益率对特征值较少的特征有一定偏好,因此 $C4.5$ **算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征,再从这些特征中选择增益率最高的**。
|
|
|
|
|
|
|
|
## 4.5
|
|
## 4.5
|
|
|
|
|
+
|
|
|
$$
|
|
$$
|
|
|
\begin{aligned}
|
|
\begin{aligned}
|
|
|
Gini(D) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p_{k'}}\\
|
|
Gini(D) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p_{k'}}\\
|
|
@@ -79,4 +80,6 @@ Gain(D,a) &= \max\limits_{t \in T_a} \ Gain(D,a) \\
|
|
|
&= \max\limits_{t \in T_a} \ Ent(D)-\sum_{\lambda \in \{-,+\}} \frac{\left | D_t^{\lambda } \right |}{\left |D \right |}Ent(D_t^{\lambda }) \end{aligned} \tag{4.8}
|
|
&= \max\limits_{t \in T_a} \ Ent(D)-\sum_{\lambda \in \{-,+\}} \frac{\left | D_t^{\lambda } \right |}{\left |D \right |}Ent(D_t^{\lambda }) \end{aligned} \tag{4.8}
|
|
|
$$
|
|
$$
|
|
|
|
|
|
|
|
-[^熵]: 熵的量度正是能量退化的指标。熵亦被用于计算一个系统中的失序现象,也就是计算该系统混乱的程度。熵是一个描述系统状态的函数,但是经常用熵的参考值和变化量进行分析比较,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。
|
|
|
|
|
|
|
+### 脚注:熵
|
|
|
|
|
+
|
|
|
|
|
+ >熵的量度正是能量退化的指标。熵亦被用于计算一个系统中的失序现象,也就是计算该系统混乱的程度。熵是一个描述系统状态的函数,但是经常用熵的参考值和变化量进行分析比较,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。
|