Procházet zdrojové kódy

调整chapter2和chapter4的引用格式

Sm1les před 6 roky
rodič
revize
f5cf8497f5
2 změnil soubory, kde provedl 7 přidání a 7 odebrání
  1. 4 4
      docs/chapter2/chapter2.md
  2. 3 3
      docs/chapter4/chapter4.md

+ 4 - 4
docs/chapter2/chapter2.md

@@ -44,7 +44,7 @@ $$\overline{\epsilon}=\max \epsilon\quad \text { s.t. } \sum_{i= \epsilon_{0} \t
 
 [推导]:截至2018年12月,第一版第30次印刷,公式(2.27)应当勘误为
 $$\overline{\epsilon}=\min \epsilon\quad\text { s.t. } \sum_{i=\epsilon\times m+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) \epsilon_0^{i}(1-\epsilon_0)^{m-i}<\alpha$$
-具体推导过程如下:由西瓜书中的上下文可知,对$\epsilon\leq\epsilon_0$进行假设检验,等价于附录<a href="#add1"></a>中所述的对$p\leq p_0$进行假设检验,所以在西瓜书中求解最大错误率$\overline{\epsilon}$等价于在附录<a href="#add1"></a>中求解事件最大发生频率$\frac{\overline{C}}{m}$。由附录<a href="#add1"></a>可知
+具体推导过程如下:由西瓜书中的上下文可知,对$\epsilon\leq\epsilon_0$进行假设检验,等价于附录①中所述的对$p\leq p_0$进行假设检验,所以在西瓜书中求解最大错误率$\overline{\epsilon}$等价于在附录①中求解事件最大发生频率$\frac{\overline{C}}{m}$。由附录①可知
 $$\overline{C}=\min C\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
 所以
 $$\frac{\overline{C}}{m}=\min \frac{C}{m}\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
@@ -100,7 +100,7 @@ $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right
 $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right)\right]=2\left(\bar{f}(\boldsymbol{x})-y\right)\cdot 0=0$$
 
 ## 附录
-<h3 id="add1">①二项分布参数$p$的检验<sup><a href="#ref1">[1]</a></sup></h3>
+### ①二项分布参数$p$的检验<sup>[1]</sup>
 设某事件发生的概率为$p$,$p$未知,作$m$次独立试验,每次观察该事件是否发生,以$X$记该事件发生的次数,则$X$服从二项分布$B(m,p)$,现根据$X$检验如下假设:
 $$H_0:p\leq p_0 \\ H_1:p > p_0$$
 由二项分布本身的特性可知:$p$越小,$X$取到较小值的概率越大。因此,对于上述假设,一个直观上合理的检验为
@@ -112,7 +112,7 @@ $$\begin{aligned}
 &=1-\sum_{i=0}^{C}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p^{i} (1-p)^{m-i} \\
 &=\sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p^{i} (1-p)^{m-i} \\
 \end{aligned}$$
-由于“$p$越小,$X$取到较小值的概率越大”可以等价表示为:$P(X\leq C)$是关于$p$的减函数(更为严格的数学证明参见<a href="#ref1">[1]</a>中第二章习题7),所以$\beta_{\varphi}(p)=P(X>C)=1-P(X\leq C)$是关于$p$的增函数,那么当$p\leq p_0$时,$\beta_{\varphi}(p_0)$即为$\beta_{\varphi}(p)$的上确界。又因为,根据<a href="#ref1">[1]</a>中5.1.3的定义1.2可知,检验水平$\alpha$默认取最小可能的水平,所以在给定检验水平$\alpha$时,可以通过如下方程解得满足检验水平$\alpha$的整数$C$:
+由于“$p$越小,$X$取到较小值的概率越大”可以等价表示为:$P(X\leq C)$是关于$p$的减函数(更为严格的数学证明参见参考文献[1]中第二章习题7),所以$\beta_{\varphi}(p)=P(X>C)=1-P(X\leq C)$是关于$p$的增函数,那么当$p\leq p_0$时,$\beta_{\varphi}(p_0)$即为$\beta_{\varphi}(p)$的上确界。又因为,根据参考文献[1]中5.1.3的定义1.2可知,检验水平$\alpha$默认取最小可能的水平,所以在给定检验水平$\alpha$时,可以通过如下方程解得满足检验水平$\alpha$的整数$C$:
 $$\alpha =\sup \left\{\beta_{\varphi}(p)\right\}$$
 显然,当$p\leq p_0$时:
 $$\begin{aligned}
@@ -127,4 +127,4 @@ $$\sum_{i=\overline{C}+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right)
 $$\overline{C}=\min C\quad\text { s.t. } \sum_{i=C+1}^{m}\left(\begin{array}{c}{m} \\ {i}\end{array}\right) p_0^{i}(1-p_0)^{m-i}<\alpha$$
 
 ## 参考文献
-<span id="ref1">[1]陈希孺编著.概率论与数理统计[M].中国科学技术大学出版社,2009.</span>
+[1]陈希孺编著.概率论与数理统计[M].中国科学技术大学出版社,2009.

+ 3 - 3
docs/chapter4/chapter4.md

@@ -136,7 +136,7 @@ $$\begin{aligned}
 [解析]:略
            
 ## 附录
-①互信息<sup>[1]</sup>
+### ①互信息<sup>[1]</sup>
 在解释互信息之前,需要先解释一下什么是条件熵<sup>[1]</sup>。条件熵表示的是在已知一个随机变量的条件下,另一个随机变量的不确定性。具体地,假设有随机变量$X$和$Y$,且它们服从以下联合概率分布
 $$P(X = x_{i},Y = y_{j}) = p_{ij},i = 1,2,....,n;j = 1,2,...,m$$
 那么在已知$X$的条件下,随机变量$Y$的条件熵为
@@ -145,7 +145,7 @@ $$\operatorname{Ent}(Y|X) =  \sum_{i=1}^np_i \operatorname{Ent}(Y|X = x_i)$$
 $$\operatorname{I}(Y;X) = \operatorname{Ent}(Y) - \operatorname{Ent}(Y|X)$$
 此即为互信息的数学定义。
 
-②CART回归树<sup>[1]</sup>
+### ②CART回归树<sup>[1]</sup>
 假设给定数据集
 $$D = {(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2)...,(\boldsymbol{x}_N,y_N)}$$
 其中$\boldsymbol{x}\in \mathbb{R}^d$为$d$维特征向量,$y\in \mathbb{R}$是连续型随机变量,这是一个标准的回归问题的数据集。若把每个属性视为坐标空间中的一个坐标轴,则$d$个属性就构成了一个$d$维的特征空间,而每个$d$维特征向量$\boldsymbol{x}$就对应了$d$维的特征空间中的一个数据点。CART回归树的目标是将特征空间划分成若干个子空间,每个子空间都有一个固定的输出值,也就是凡是落在同一个子空间内的数据点$\boldsymbol{x}_i$,他们所对应的输出值$y_i$恒相等,且都为该子空间的输出值。那么如何划分出若干个子空间呢?这里采用一种启发式的方法:
@@ -158,6 +158,6 @@ $$c_2=\operatorname{ave}(y_i | x\in R_2(a,v))=\frac{1}{|R_2(a,v)|}\sum_{\boldsym
 $$f(\boldsymbol {x}) = \sum_{m=1}^{M}c_m\mathbb{I}(x\in{R_m})$$
 同理,其中的$c_m$表示的也是集合$R_m$中的样本$\boldsymbol {x}_i$对应的输出值$y_i$的均值。此公式直观上的理解就是,对于一个给定的样本$\boldsymbol {x}_i$,首先判断其属于哪个子空间,然后将其所属的子空间对应的输出值作为该样本的预测值$y_i$。
 
-### 参考文献
+## 参考文献
 [1]李航编著.统计学习方法[M].清华大学出版社,2012.