před 6 roky · f5cf8497f5
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -44,7 +44,7 @@ $$\overline{\epsilon}=\max \epsilon\quad \text { s.t. } \sum_{i= \epsilon_{0} \t
 
				 
			
 
				 [推导]：截至2018年12月，第一版第30次印刷，公式（2.27）应当勘误为
			
 
				 $$\overline{\epsilon}=\min \epsilon\quad\text { s.t. } \sum_{i=\epsilon\times m+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) \epsilon_0^{i}(1-\epsilon_0)^{m-i}<\alpha$$
			
 
				-具体推导过程如下：由西瓜书中的上下文可知，对$\epsilon\leq\epsilon_0$进行假设检验，等价于附录<a href="#add1">①</a>中所述的对$p\leq p_0$进行假设检验，所以在西瓜书中求解最大错误率$\overline{\epsilon}$等价于在附录<a href="#add1">①</a>中求解事件最大发生频率$\frac{\overline{C}}{m}$。由附录<a href="#add1">①</a>可知
			
 
				+具体推导过程如下：由西瓜书中的上下文可知，对$\epsilon\leq\epsilon_0$进行假设检验，等价于附录①中所述的对$p\leq p_0$进行假设检验，所以在西瓜书中求解最大错误率$\overline{\epsilon}$等价于在附录①中求解事件最大发生频率$\frac{\overline{C}}{m}$。由附录①可知
			
 
				 $$\overline{C}=\min C\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
			
 
				 所以
			
 
				 $$\frac{\overline{C}}{m}=\min \frac{C}{m}\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
			
@@ -100,7 +100,7 @@ $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right
 
				 $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right)\right]=2\left(\bar{f}(\boldsymbol{x})-y\right)\cdot 0=0$$
			
 
				 
			
 
				 ## 附录
			
 
				-<h3 id="add1">①二项分布参数$p$的检验<sup><a href="#ref1">[1]</a></sup></h3>
			
 
				+### ①二项分布参数$p$的检验<sup>[1]</sup>
			
 
				 设某事件发生的概率为$p$，$p$未知，作$m$次独立试验，每次观察该事件是否发生，以$X$记该事件发生的次数，则$X$服从二项分布$B(m,p)$，现根据$X$检验如下假设：
			
 
				 $$H_0:p\leq p_0 \\ H_1:p > p_0$$
			
 
				 由二项分布本身的特性可知：$p$越小，$X$取到较小值的概率越大。因此，对于上述假设，一个直观上合理的检验为
			
@@ -112,7 +112,7 @@ $$\begin{aligned}
 
				 &=1-\sum_{i=0}^{C}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p^{i} (1-p)^{m-i} \\
			
 
				 &=\sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p^{i} (1-p)^{m-i} \\
			
 
				 \end{aligned}$$
			
 
				-由于“$p$越小，$X$取到较小值的概率越大”可以等价表示为：$P(X\leq C)$是关于$p$的减函数（更为严格的数学证明参见<a href="#ref1">[1]</a>中第二章习题7），所以$\beta_{\varphi}(p)=P(X>C)=1-P(X\leq C)$是关于$p$的增函数，那么当$p\leq p_0$时，$\beta_{\varphi}(p_0)$即为$\beta_{\varphi}(p)$的上确界。又因为，根据<a href="#ref1">[1]</a>中5.1.3的定义1.2可知，检验水平$\alpha$默认取最小可能的水平，所以在给定检验水平$\alpha$时，可以通过如下方程解得满足检验水平$\alpha$的整数$C$：
			
 
				+由于“$p$越小，$X$取到较小值的概率越大”可以等价表示为：$P(X\leq C)$是关于$p$的减函数（更为严格的数学证明参见参考文献[1]中第二章习题7），所以$\beta_{\varphi}(p)=P(X>C)=1-P(X\leq C)$是关于$p$的增函数，那么当$p\leq p_0$时，$\beta_{\varphi}(p_0)$即为$\beta_{\varphi}(p)$的上确界。又因为，根据参考文献[1]中5.1.3的定义1.2可知，检验水平$\alpha$默认取最小可能的水平，所以在给定检验水平$\alpha$时，可以通过如下方程解得满足检验水平$\alpha$的整数$C$：
			
 
				 $$\alpha =\sup \left\{\beta_{\varphi}(p)\right\}$$
			
 
				 显然，当$p\leq p_0$时：
			
 
				 $$\begin{aligned}
			
@@ -127,4 +127,4 @@ $$\sum_{i=\overline{C}+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right)
 
				 $$\overline{C}=\min C\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
			
 
				 
			
 
				 ## 参考文献
			
 
				-<span id="ref1">[1]陈希孺编著.概率论与数理统计[M].中国科学技术大学出版社,2009.</span>
			
 
				+[1]陈希孺编著.概率论与数理统计[M].中国科学技术大学出版社,2009.
			
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -136,7 +136,7 @@ $$\begin{aligned}
 
				 [解析]：略
			
 
				            
			
 
				 ## 附录
			
 
				-①互信息<sup>[1]</sup>
			
 
				+### ①互信息<sup>[1]</sup>
			
 
				 在解释互信息之前，需要先解释一下什么是条件熵<sup>[1]</sup>。条件熵表示的是在已知一个随机变量的条件下，另一个随机变量的不确定性。具体地，假设有随机变量$X$和$Y$，且它们服从以下联合概率分布
			
 
				 $$P(X = x_{i},Y = y_{j}) = p_{ij}，i = 1,2,....,n；j = 1,2,...,m$$
			
 
				 那么在已知$X$的条件下，随机变量$Y$的条件熵为
			
@@ -145,7 +145,7 @@ $$\operatorname{Ent}(Y|X) =  \sum_{i=1}^np_i \operatorname{Ent}(Y|X = x_i)$$
 
				 $$\operatorname{I}(Y;X) = \operatorname{Ent}(Y) - \operatorname{Ent}(Y|X)$$
			
 
				 此即为互信息的数学定义。
			
 
				 
			
 
				-②CART回归树<sup>[1]</sup>
			
 
				+### ②CART回归树<sup>[1]</sup>
			
 
				 假设给定数据集
			
 
				 $$D = {(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2)...,(\boldsymbol{x}_N,y_N)}$$
			
 
				 其中$\boldsymbol{x}\in \mathbb{R}^d$为$d$维特征向量，$y\in \mathbb{R}$是连续型随机变量，这是一个标准的回归问题的数据集。若把每个属性视为坐标空间中的一个坐标轴，则$d$个属性就构成了一个$d$维的特征空间，而每个$d$维特征向量$\boldsymbol{x}$就对应了$d$维的特征空间中的一个数据点。CART回归树的目标是将特征空间划分成若干个子空间，每个子空间都有一个固定的输出值，也就是凡是落在同一个子空间内的数据点$\boldsymbol{x}_i$，他们所对应的输出值$y_i$恒相等，且都为该子空间的输出值。那么如何划分出若干个子空间呢？这里采用一种启发式的方法：
			
@@ -158,6 +158,6 @@ $$c_2=\operatorname{ave}(y_i | x\in R_2(a,v))=\frac{1}{|R_2(a,v)|}\sum_{\boldsym
 
				 $$f(\boldsymbol {x}) = \sum_{m=1}^{M}c_m\mathbb{I}(x\in{R_m})$$
			
 
				 同理，其中的$c_m$表示的也是集合$R_m$中的样本$\boldsymbol {x}_i$对应的输出值$y_i$的均值。此公式直观上的理解就是，对于一个给定的样本$\boldsymbol {x}_i$，首先判断其属于哪个子空间，然后将其所属的子空间对应的输出值作为该样本的预测值$y_i$。
			
 
				 
			
 
				-### 参考文献
			
 
				+## 参考文献
			
 
				 [1]李航编著.统计学习方法[M].清华大学出版社,2012.