瀏覽代碼

细节调整、第四章加注释

第四章加注释
lake.lai 6 年之前
父節點
當前提交
b0e28e9a7f
共有 2 個文件被更改,包括 10 次插入8 次删除
  1. 4 6
      docs/chapter2/chapter2.md
  2. 6 2
      docs/chapter4/chapter4.md

+ 4 - 6
docs/chapter2/chapter2.md

@@ -8,7 +8,9 @@ $$ AUC=\cfrac{1}{2}\sum_{i=1}^{m-1}(x_{i+1} - x_i)\cdot(y_i + y_{i+1}) $$
 
 $$ l_{rank}=\cfrac{1}{m^+m^-}\sum_{x^+ \in D^+}\sum_{x^- \in D^-}(\mathbb{I}(f(x^+)<f(x^-))+\cfrac{1}{2}\mathbb{I}(f(x^+)=f(x^-))) $$
 
-[解析]:此公式正如书上所说,$ l_{rank} $为ROC曲线**之上**的面积,假设某ROC曲线如下图所示:
+[解析]:
+
+此公式正如书上所说,$ l_{rank} $为ROC曲线**之上**的面积,假设某ROC曲线如下图所示:
 
 ![avatar ROC曲线](resources/images/lrank.png? "ROC曲线")
 
@@ -36,11 +38,7 @@ $$ \cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum_{x^- \in D^-}\mathbb{I}(f(x^+_i)<f
 
 综上分析可知,式S既可以用来求绿色线段与Y轴构成的面积也能求蓝色线段与Y轴构成的面积,所以遍历完所有绿色和蓝色线段并将其与Y轴构成的面积累加起来即得$ l_{rank} $。
 
-[^ROC曲线]:roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。
-
-**横轴:负正类率(false postive rate FPR)特异度**,划分实例中所有负例占所有负例的比例;(1-Specificity)
-
-**纵轴:真正类率(true postive rate TPR)灵敏度**,Sensitivity(正类覆盖率)
+[^ROC曲线]: roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。**横轴:负正类率(false postive rate FPR)特异度**,划分实例中所有负例占所有负例的比例;(1-Specificity),**纵轴:真正类率(true postive rate TPR)灵敏度**,Sensitivity(正类覆盖率)
 
 参考:
 

+ 6 - 2
docs/chapter4/chapter4.md

@@ -1,6 +1,8 @@
 ## 4.1
 $$Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
-[解析]:熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
+[解析]:
+
+熵[^熵]是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
 
 假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ,则 $D$ 的信息熵为:
 
@@ -75,4 +77,6 @@ $$
 \begin{aligned}
 Gain(D,a) &= \max\limits_{t \in T_a} \ Gain(D,a) \\
 &= \max\limits_{t \in T_a} \ Ent(D)-\sum_{\lambda \in \{-,+\}} \frac{\left | D_t^{\lambda } \right |}{\left |D  \right |}Ent(D_t^{\lambda }) \end{aligned} \tag{4.8}
-$$
+$$
+
+[^熵]: 熵的量度正是能量退化的指标。熵亦被用于计算一个系统中的失序现象,也就是计算该系统混乱的程度。熵是一个描述系统状态的函数,但是经常用熵的参考值和变化量进行分析比较,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。