4 anni fa · 8543bdbddb
--- a/README.md
+++ b/README.md
@@ -28,7 +28,7 @@
 
				 
			
 
				 #### 纸质版和PDF版的区别
			
 
				 
			
 
				-PDF版本是我们寄送出版社的全书初稿，经由人民邮电出版社出版社的编辑老师们对初稿进行了反复修缮最终诞生了纸质书籍，在此向人民邮电出版社的编辑老师的认真严谨表示衷心的感谢！（附：校对样稿）
			
 
				+PDF版本是我们寄送出版社的全书初稿，经由人民邮电出版社的编辑老师们对初稿进行了反复修缮最终诞生了纸质书籍，在此向人民邮电出版社的编辑老师的认真严谨表示衷心的感谢！（附：校对样稿）
			
 
				 
			
 
				 <center class="half"><img src="https://raw.githubusercontent.com/datawhalechina/pumpkin-book/master/res/yanggao1.jpg" width="300"><img src="https://raw.githubusercontent.com/datawhalechina/pumpkin-book/master/res/yanggao2.jpg" width="300"></center>
			
 
				 
			
--- a/docs/chapter12/chapter12.md
+++ b/docs/chapter12/chapter12.md
@@ -213,7 +213,7 @@ P(-\epsilon \leqslant E(h)-\widehat{E}(h) \leqslant \epsilon) &\geqslant 1 - \de
 
				 P(\widehat{E}(h) -\epsilon \leqslant E(h) \leqslant \widehat{E}(h)+\epsilon) &\geqslant 1 - \delta\\
			
 
				 \end{aligned}
			
 
				 $$
			
 
				-带入 $\epsilon=\sqrt{\frac{\ln(2/\delta)}{2m}}$得证。
			
 
				+代入 $\epsilon=\sqrt{\frac{\ln(2/\delta)}{2m}}$得证。
			
 
				 
			
 
				 这个式子进一步阐明了当观测集样本数量足够大的时候，$h$的经验误差是其泛化误差很好的近似。
			
 
				 
			
@@ -257,7 +257,7 @@ $$
 
				 P(\forall h\in\mathcal{H}:\vert E(h)-\widehat{E}(h)\vert\leqslant\epsilon)&=1-P(\exists h \in \mathcal{H}:|E(h)-\widehat{E}(h)|>\epsilon)\\ &\geqslant 1- 2|\mathcal{H}| \exp \left(-2 m \epsilon^{2}\right)
			
 
				 \end{aligned}
			
 
				 $$
			
 
				-令$\delta=2\vert\mathcal{H}\vert e^{-2m\epsilon^2}$，则$\epsilon=\sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m}}$，带入上式中即可得到
			
 
				+令$\delta=2\vert\mathcal{H}\vert e^{-2m\epsilon^2}$，则$\epsilon=\sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m}}$，代入上式中即可得到
			
 
				 $$
			
 
				 P\left(\forall h\in\mathcal{H}:\vert E(h)-\widehat{E}(h)\vert\leqslant\sqrt{\frac{\ln |\mathcal{H}|+\ln (2 / \delta)}{2 m}}\right)\geqslant 1- \delta
			
 
				 $$
			
@@ -424,7 +424,7 @@ E(h)-\widehat{E}(h) \leqslant \sqrt{
 
				 $$
			
 
				 
			
 
				 
			
 
				-[推导]：这里应该是作者的笔误，根据式12.22，$E(h)-\widehat{E}(h)$应当被绝对值符号包裹。将式12.28带入式12.22得
			
 
				+[推导]：这里应该是作者的笔误，根据式12.22，$E(h)-\widehat{E}(h)$应当被绝对值符号包裹。将式12.28代入式12.22得
			
 
				 $$
			
 
				 P\left(\vert 
			
 
				 E(h)-\widehat{E}(h) \vert> \epsilon
			
@@ -437,7 +437,7 @@ $$
 
				 \frac{8d\ln\frac{2em}{d}+8\ln\frac{4}{\delta}}{m}
			
 
				 }
			
 
				 $$
			
 
				-带入式12.22，则定理得证。这个式子是用VC维表示泛化界，可以看出，泛化误差界只与样本数量$m$有关，收敛速率为$\sqrt{\frac{\ln m}{m}}$ (书上简化为$\frac{1}{\sqrt{m}}$)。
			
 
				+代入式12.22，则定理得证。这个式子是用VC维表示泛化界，可以看出，泛化误差界只与样本数量$m$有关，收敛速率为$\sqrt{\frac{\ln m}{m}}$ (书上简化为$\frac{1}{\sqrt{m}}$)。
			
 
				 
			
 
				 
			
 
				 
			
@@ -732,7 +732,7 @@ $$
 
				 \begin{array}{l}{\quad\left|\ell\left(\mathfrak{L}_{D}, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i}}, \boldsymbol{z}\right)\right|} \\ {\leqslant\left|\ell\left(\mathfrak{L}_{D}, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}}, \boldsymbol{z}\right)\right|+\left|\ell\left(\mathfrak{L}_{D^{i}, \boldsymbol{z}}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}, \boldsymbol{z}}\right)\right|} \\ {\leqslant 2 \beta}\end{array}
			
 
				 $$
			
 
				 
			
 
				-[解析]：根据[三角不等式]([https://zh.wikipedia.org/zh-hans/%E4%B8%89%E8%A7%92%E4%B8%8D%E7%AD%89%E5%BC%8F](https://zh.wikipedia.org/zh-hans/三角不等式))，有$|a+b| \leq|a|+|b|$，将$a=\ell\left(\mathfrak{L}_{D}, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i}}\right)$，$b=\ell\left(\mathfrak{L}_{D^{i}, \boldsymbol{z}}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}, \boldsymbol{z}}\right)$带入即可得出第一个不等式，根据$D^{\backslash i}$表示移除$D$中第$i$个样本，$D^i$表示替换$D$中第$i$个样本，那么$a,b$的变动均为一个样本，根据式12.57，$a\leqslant\beta, b\leqslant\beta$，因此$a +b \leqslant 2\beta$。
			
 
				+[解析]：根据[三角不等式]([https://zh.wikipedia.org/zh-hans/%E4%B8%89%E8%A7%92%E4%B8%8D%E7%AD%89%E5%BC%8F](https://zh.wikipedia.org/zh-hans/三角不等式))，有$|a+b| \leq|a|+|b|$，将$a=\ell\left(\mathfrak{L}_{D}, \boldsymbol{z}\right)-\ell\left(\mathfrak{L}_{D^{i}}\right)$，$b=\ell\left(\mathfrak{L}_{D^{i}, \boldsymbol{z}}\right)-\ell\left(\mathfrak{L}_{D^{\backslash i}, \boldsymbol{z}}\right)$代入即可得出第一个不等式，根据$D^{\backslash i}$表示移除$D$中第$i$个样本，$D^i$表示替换$D$中第$i$个样本，那么$a,b$的变动均为一个样本，根据式12.57，$a\leqslant\beta, b\leqslant\beta$，因此$a +b \leqslant 2\beta$。
			
 
				 
			
 
				 
			
 
				 
			
@@ -768,7 +768,7 @@ $$
 
				 
			
 
				 
			
 
				 
			
 
				-[证明]：将$\beta=\frac{1}{m}$带入至式12.58即得证。
			
 
				+[证明]：将$\beta=\frac{1}{m}$代入至式12.58即得证。
			
 
				 
			
 
				 
			
 
				 
			
@@ -784,7 +784,7 @@ $$
 
				 $$
			
 
				 \begin{array}{l}{\epsilon^{\prime}=\frac{\epsilon}{2}} \\ {\frac{\delta}{2}=2 \exp \left(-2 m\left(\epsilon^{\prime}\right)^{2}\right)}\end{array}
			
 
				 $$
			
 
				-将$\epsilon^\prime=\frac{\epsilon}{2}$带入到${\frac{\delta}{2}=2 \exp \left(-2 m\left(\epsilon^{\prime}\right)^{2}\right)}$可以解得$m=\frac{2}{\epsilon^{2}} \ln \frac{4}{\delta}$，由Hoeffding不等式12.6，$$P\left(\left\vert\frac{1}{m} \sum_{i=1}^{m} x_{i}-\frac{1}{m} \sum_{i=1}^{m} \mathbb{E}\left(x_{i}\right)\right\vert \geqslant \epsilon\right) \leqslant 2 \exp \left(-2 m \epsilon^{2}\right)$$，其中$\frac{1}{m} \sum_{i=1}^{m} \mathbb{E}\left(x_{i}\right)=\ell(g, \mathcal{D})$，$\frac{1}{m} \sum_{i=1}^{m} x_{i}=\widehat{\ell}(g, \mathcal{D})$，带入可得
			
 
				+将$\epsilon^\prime=\frac{\epsilon}{2}$代入到${\frac{\delta}{2}=2 \exp \left(-2 m\left(\epsilon^{\prime}\right)^{2}\right)}$可以解得$m=\frac{2}{\epsilon^{2}} \ln \frac{4}{\delta}$，由Hoeffding不等式12.6，$$P\left(\left\vert\frac{1}{m} \sum_{i=1}^{m} x_{i}-\frac{1}{m} \sum_{i=1}^{m} \mathbb{E}\left(x_{i}\right)\right\vert \geqslant \epsilon\right) \leqslant 2 \exp \left(-2 m \epsilon^{2}\right)$$，其中$\frac{1}{m} \sum_{i=1}^{m} \mathbb{E}\left(x_{i}\right)=\ell(g, \mathcal{D})$，$\frac{1}{m} \sum_{i=1}^{m} x_{i}=\widehat{\ell}(g, \mathcal{D})$，代入可得
			
 
				 $$
			
 
				 P(|\ell(g, \mathcal{D})-\widehat{\ell}(g, D)| \geqslant \frac{\epsilon}{2})\leqslant \frac{\delta}{2}
			
 
				 $$
			
--- a/docs/chapter13/chapter13.md
+++ b/docs/chapter13/chapter13.md
@@ -194,7 +194,7 @@ $$
 
				 
			
 
				 
			
 
				 解出$l+u+\lambda = 0$  且$l+u =m$ 其中$m$为样本总个数，移项即得$\lambda = -m$
			
 
				-最后带入整理解得
			
 
				+最后代入整理解得
			
 
				 $$
			
 
				 l_i + \sum_{x_j \in{D_u}} \gamma_{ji}-\lambda \alpha_i = 0
			
 
				 $$
			
--- a/docs/chapter15/chapter15.md
+++ b/docs/chapter15/chapter15.md
@@ -28,7 +28,7 @@ $$
 
				 C=\left(C_{1}-\{L\}\right) \vee\left(C_{2}-\{\neg L\}\right)
			
 
				 $$
			
 
				 
			
 
				-[解析]：$C=A\vee B$，把$A=C_1 - \{L\}$和$L=C_2-\{\neg L\}$带入即得。
			
 
				+[解析]：$C=A\vee B$，把$A=C_1 - \{L\}$和$L=C_2-\{\neg L\}$代入即得。
			
 
				 
			
 
				 ## 15.9
			
 
				 
			
--- a/docs/chapter7/chapter7.md
+++ b/docs/chapter7/chapter7.md
@@ -8,7 +8,7 @@ $$R(c_i|\boldsymbol x)=1-P(c_i|\boldsymbol x)$$
 
				 
			
 
				 ## 7.6
			
 
				 $$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c | \boldsymbol{x})$$
			
 
				-[推导]：将公式(7.5)带入公式(7.3)即可推得此式。
			
 
				+[推导]：将公式(7.5)代入公式(7.3)即可推得此式。
			
 
				 
			
 
				 ## 7.12
			
 
				 $$\hat{\boldsymbol{\mu}}_{c}=\frac{1}{\left|D_{c}\right|} \sum_{\boldsymbol{x} \in D_{c}} \boldsymbol{x}$$
			
--- a/docs/chapter8/chapter8.md
+++ b/docs/chapter8/chapter8.md
@@ -175,7 +175,7 @@ $$
 
				 \end{aligned}
			
 
				 $$
			
 
				 
			
 
				-[解析]：将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$带入公式(8.5)即可，因为理想的$h_t$可以纠正$H_{t-1}$的全部错误，所以这里指定其权重系数为1。如果权重系数$\alpha_t$是个常数的话，对后续结果也没有影响。
			
 
				+[解析]：将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$代入公式(8.5)即可，因为理想的$h_t$可以纠正$H_{t-1}$的全部错误，所以这里指定其权重系数为1。如果权重系数$\alpha_t$是个常数的话，对后续结果也没有影响。
			
 
				 
			
 
				 ## 8.13
			
 
				 
			
--- a/docs/chapter9/chapter9.md
+++ b/docs/chapter9/chapter9.md
@@ -127,7 +127,7 @@ $$
 
				 $$
			
 
				 \gamma_{j i}=p_{\mathcal{M}}\left(z_{j}=i | \boldsymbol{x}_{j}\right)=\frac{\alpha_{i} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}{\sum_{l=1}^{k} \alpha_{l} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{l}, \mathbf{\Sigma}_{l}\right)}
			
 
				 $$
			
 
				-带入9.33
			
 
				+代入9.33
			
 
				 $$
			
 
				 \sum_{j=1}^{m} \gamma_{j i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)=0
			
 
				 $$