6 năm trước cách đây · a1eaf02187
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -38,9 +38,45 @@ $$ \cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum_{x^- \in D^-}\mathbb{I}(f(x^+_i)<f
 
				 
			
 
				 综上分析可知，式S既可以用来求绿色线段与Y轴构成的面积也能求蓝色线段与Y轴构成的面积，所以遍历完所有绿色和蓝色线段并将其与Y轴构成的面积累加起来即得$ l_{rank} $。
			
 
				 
			
 
				-### 脚注：ROC曲线
			
 
				-
			
 
				-> roc曲线：接收者操作特征（receiveroperating characteristic）,roc曲线上每个点反映着对同一信号刺激的感受性。**横轴：负正类率(false postive rate FPR)特异度**，划分实例中所有负例占所有负例的比例；(1-Specificity)，**纵轴：真正类率(true postive rate TPR)灵敏度**，Sensitivity(正类覆盖率)。
			
 
				-> 参考：
			
 
				-> [ROC和AUC介绍以及如何计算AUC](http://alexkong.net/2013/06/introduction-to-auc-and-roc/)
			
 
				-> [ROC曲线-阈值评价标准](http://blog.csdn.net/abcjennifer/article/details/7359370)
			
 
				+## 2.27
			
 
				+
			
 
				+$$\overline{\epsilon}=\max \epsilon\quad \text { s.t. } \sum_{i= \epsilon_{0} \times m+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) \epsilon^{i}(1-\epsilon)^{m-i}<\alpha$$
			
 
				+
			
 
				+[推导]：截至2018年12月，第一版第30次印刷，公式（2.27）应当勘误为
			
 
				+$$\overline{\epsilon}=\min \epsilon\quad\text { s.t. } \sum_{i=\epsilon\times m+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) \epsilon_0^{i}(1-\epsilon_0)^{m-i}<\alpha$$
			
 
				+具体推导过程如下：由西瓜书中的上下文可知，对$\epsilon\leq\epsilon_0$进行假设检验，等价于附录<a href="#add1">①</a>中所述的对$p\leq p_0$进行假设检验，所以在西瓜书中求解最大错误率$\overline{\epsilon}$等价于在附录<a href="#add1">①</a>中求解事件最大发生频率$\frac{\overline{C}}{m}$。由附录<a href="#add1">①</a>可知
			
 
				+$$\overline{C}=\min C\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
			
 
				+所以
			
 
				+$$\frac{\overline{C}}{m}=\min \frac{C}{m}\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
			
 
				+将上式中的$\frac{\overline{C}}{m},\frac{C}{m},p_0$等价替换为$\overline{\epsilon},\epsilon,\epsilon_0$可得
			
 
				+$$\overline{\epsilon}=\min \epsilon\quad\text { s.t. } \sum_{i=\epsilon\times m+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) \epsilon_0^{i}(1-\epsilon_0)^{m-i}<\alpha$$
			
 
				+
			
 
				+## 附录
			
 
				+<h3 id="add1">①二项分布参数$p$的检验<sup><a href="#ref1">[1]</a></sup></h3>
			
 
				+设某事件发生的概率为$p$，$p$未知，作$m$次独立试验，每次观察该事件是否发生，以$X$记该事件发生的次数，则$X$服从二项分布$B(m,p)$，现根据$X$检验如下假设：
			
 
				+$$H_0:p\leq p_0 \\ H_1:p > p_0$$
			
 
				+由二项分布本身的特性可知：$p$越小，$X$取到较小值的概率越大。因此，对于上述假设，一个直观上合理的检验为
			
 
				+$$\varphi:当X\leq C时接受H_0,否则就拒绝H_0$$
			
 
				+其中，$C\in N$表示事件最大发生次数。此检验对应的功效函数为
			
 
				+$$\begin{aligned}
			
 
				+\beta_{\varphi}(p)&=P(X>C)\\
			
 
				+&=1-P(X\leq C) \\
			
 
				+&=1-\sum_{i=0}^{C}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p^{i} (1-p)^{m-i} \\
			
 
				+&=\sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p^{i} (1-p)^{m-i} \\
			
 
				+\end{aligned}$$
			
 
				+由于“$p$越小，$X$取到较小值的概率越大”可以等价表示为：$P(X\leq C)$是关于$p$的减函数（更为严格的数学证明参见<a href="#ref1">[1]</a>中第二章习题7），所以$\beta_{\varphi}(p)=P(X>C)=1-P(X\leq C)$是关于$p$的增函数，那么当$p\leq p_0$时，$\beta_{\varphi}(p_0)$即为$\beta_{\varphi}(p)$的上确界。又因为，根据<a href="#ref1">[1]</a>中5.1.3的定义1.2可知，检验水平$\alpha$默认取最小可能的水平，所以在给定检验水平$\alpha$时，可以通过如下方程解得满足检验水平$\alpha$的整数$C$：
			
 
				+$$\alpha =\sup \left\{\beta_{\varphi}(p)\right\}$$
			
 
				+显然，当$p\leq p_0$时：
			
 
				+$$\begin{aligned}
			
 
				+\alpha &=\sup \left\{\beta_{\varphi}(p)\right\} \\
			
 
				+&=\beta_{\varphi}(p_0) \\
			
 
				+&=\sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i} (1-p_0)^{m-i}
			
 
				+\end{aligned}$$
			
 
				+对于此方程，通常不一定正好解得一个整数$C$使得方程成立，较常见的情况是存在这样一个$\overline{C}$使得
			
 
				+$$\sum_{i=\overline{C}+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i} (1-p_0)^{m-i}<\alpha \\
			
 
				+\sum_{i=\overline{C}}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i} (1-p_0)^{m-i}>\alpha$$
			
 
				+此时，$C$只能取$\overline{C}$或者$\overline{C}+1$，若$C$取$\overline{C}$，则相当于升高了检验水平$\alpha$，若$C$取$\overline{C}+1$则相当于降低了检验水平$\alpha$，具体如何取舍需要结合实际情况，但是通常为了减小犯第一类错误的概率，会倾向于令$C$取$\overline{C}+1$。下面考虑如何求解$\overline{C}$：易证$\beta_{\varphi}(p_0)$是关于$C$的减函数，所以再结合上述关于$\overline{C}$的两个不等式易推得
			
 
				+$$\overline{C}=\min C\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
			
 
				+
			
 
				+## 参考文献
			
 
				+<span id="ref1">[1]陈希孺编著.概率论与数理统计[M].中国科学技术大学出版社,2009.</span>