7 سال پیش · 3a78fe36e5
--- a/Chapter1/README.md
+++ b/Chapter1/README.md
@@ -1 +0,0 @@
 
				-# 第1章 绪论
			
--- a/Chapter1/chapter1.md
+++ b/Chapter1/chapter1.md
--- a/Chapter2/README.md
+++ b/Chapter2/README.md
@@ -1,13 +0,0 @@
 
				-# 第2章 模型评估
			
 
				-
			
 
				-### 2.1 经验误差与过拟合
			
 
				-### 2.2 评估方法
			
 
				-### 2.3 性能度量
			
 
				-- [2.20](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter2/chapter2.md)
			
 
				-- [2.21](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter2/chapter2.md)
			
 
				-### 2.4 比较检验
			
 
				-### 2.5 偏差与方差
			
 
				-
			
 
				-
			
 
				-
			
 
				-
			
--- a/Chapter2/chapter2.md
+++ b/Chapter2/chapter2.md
@@ -1,36 +0,0 @@
 
				-### 2.20
			
 
				-
			
 
				-$$ AUC=\cfrac{1}{2}\sum\_{i=1}^{m-1}(x\_{i+1} - x\_i)\cdot(y\_i + y\_{i+1}) $$
			
 
				-
			
 
				-[解析]：由于图2.4(b)中给出的ROC曲线为横平竖直的标准折线，所以乍一看这个式子的时候很不理解其中的$ \cfrac{1}{2} $和$ (y\_i + y\_{i+1}) $代表着什么，因为对于横平竖直的标准折线用$ AUC=\sum\_{i=1}^{m-1}(x\_{i+1} - x\_i) \cdot y\_i $就可以求出AUC了，但是图2.4(b)中的ROC曲线只是个特例罢了，因为此图是所有样例的预测值均不相同时的情形，也就是说每次分类阈值变化的时候只会划分新增**1个**样例为正例，所以下一个点的坐标为$ (x+\cfrac{1}{m^-},y) $或$ (x,y+\cfrac{1}{m^+}) $，然而当模型对某个正样例和某个反样例给出的预测值相同时，便会划分新增**两个**样例为正例，于是其中一个分类正确一个分类错误，那么下一个点的坐标为$ (x+\cfrac{1}{m^-},y+\cfrac{1}{m^+}) $（当没有预测值相同的样例时，若采取按固定梯度改变分类阈值，也会出现一下划分新增两个甚至多个正例的情形，但是此种阈值选取方案画出的ROC曲线AUC值更小，不建议使用），此时ROC曲线中便会出现斜线，而不再是只有横平竖直的折线，所以用**梯形面积公式**就能完美兼容这两种分类阈值选取方案，也即 **(上底+下底)\*高\*$ \cfrac{1}{2} $**
			
 
				-
			
 
				-### 2.21
			
 
				-
			
 
				-$$ l\_{rank}=\cfrac{1}{m^+m^-}\sum\_{x^+ \in D^+}\sum\_{x^- \in D^-}(||(f(x^+)<f(x^-))+\cfrac{1}{2}||(f(x^+)=f(x^-))) $$
			
 
				-
			
 
				-[解析]：此公式正如书上所说，$ l\_{rank} $为ROC曲线**之上**的面积，假设某ROC曲线如下图所示：
			
 
				-
			
 
				-![avatar](resources/images/lrank.png)
			
 
				-
			
 
				-观察ROC曲线易知：
			
 
				-- 每增加一条绿色线段对应着有**1个**正样例（$ x^+\_i $）被模型正确判别为正例，且该线段在Y轴的投影长度恒为$ \cfrac{1}{m^+} $；
			
 
				-- 每增加一条红色线段对应着有**1个**反样例（$ x^-\_i $）被模型错误判别为正例，且该线段在X轴的投影长度恒为$ \cfrac{1}{m^-} $；
			
 
				-- 每增加一条蓝色线段对应着有a个正样例和b个反样例**同时**被判别为正例，且该线段在X轴上的投影长度=$ b * \cfrac{1}{m^-} $，在Y轴上的投影长度=$ a * \cfrac{1}{m^+} $；
			
 
				-- 任何一条线段所对应的样例的预测值一定**小于**其左边和下边的线段所对应的样例的预测值，其中蓝色线段所对应的a+b个样例的预测值相等。
			
 
				-
			
 
				-公式里的$ \sum\_{x^+ \in D^+} $可以看成一个遍历$ x^+\_i $的循环：
			
 
				-
			
 
				-for $ x^+\_i $ in $ D^+ $:
			
 
				-
			
 
				-&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;$ \cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}(||(f(x^+\_i)<f(x^-))+\cfrac{1}{2}||(f(x^+\_i)=f(x^-))) $ #记为式S
			
 
				-
			
 
				-由于每个$ x^+\_i $都对应着一条绿色或蓝色线段，所以遍历$ x^+\_i $可以看成是在遍历每条绿色和蓝色线段，并用式S来求出每条绿色线段与Y轴构成的面积（例如上图中的m1)或者蓝色线段与Y轴构成的面积（例如上图中的m2+m3）。
			
 
				-
			
 
				-**对于每条绿色线段：** 将其式S展开可得：
			
 
				-$$ \cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}||(f(x^+\_i)<f(x^-))+\cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}\cfrac{1}{2}||(f(x^+\_i)=f(x^-)) $$其中$ x^+\_i $此时恒为该线段所对应的正样例，是一个定值。$ \sum\_{x^- \in D^-}\cfrac{1}{2}||(f(x^+\_i)=f(x^-) $是在通过遍历所有反样例来统计和$ x^+\_i $的预测值相等的反样例个数，由于没有反样例的预测值和$ x^+\_i $的预测值相等，所以$ \sum\_{x^- \in D^-}\cfrac{1}{2}||(f(x^+\_i)=f(x^-)) $此时恒为0，于是其式S可以化简为：$$ \cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}||(f(x^+\_i)<f(x^-)) $$其中$ \cfrac{1}{m^+} $为该线段在Y轴上的投影长度，$ \sum\_{x^- \in D^-}||(f(x^+\_i)<f(x^-)) $同理是在通过遍历所有反样例来统计预测值大于$ x^+\_i $的预测值的反样例个数，也即该线段左边和下边的红色线段个数+蓝色线段对应的反样例个数，所以$ \cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}(||(f(x^+)<f(x^-))) $便是该线段左边和下边的红色线段在X轴的投影长度+蓝色线段在X轴的投影长度，也就是该绿色线段在X轴的投影长度，观察ROC图像易知绿色线段与Y轴围成的面积=该线段在Y轴的投影长度 * 该线段在X轴的投影长度。
			
 
				-
			
 
				-**对于每条蓝色线段：** 将其式S展开可得：
			
 
				-$$ \cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}||(f(x^+\_i)<f(x^-))+\cfrac{1}{m^+}\cdot\cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}\cfrac{1}{2}||(f(x^+\_i)=f(x^-)) $$
			
 
				-其中前半部分表示的是蓝色线段和Y轴围成的图形里面矩形部分的面积，后半部分表示的便是剩下的三角形的面积，矩形部分的面积公式同绿色线段的面积公式一样很好理解，而三角形部分的面积公式里面的$ \cfrac{1}{m^+} $为底边长，$ \cfrac{1}{m^-}\cdot\sum\_{x^- \in D^-}||(f(x^+\_i)=f(x^-)) $为高。
			
 
				-
			
 
				-综上分析可知，式S既可以用来求绿色线段与Y轴构成的面积也能求蓝色线段与Y轴构成的面积，所以遍历完所有绿色和蓝色线段并将其与Y轴构成的面积累加起来即得$ l\_{rank} $。
			
--- a/Chapter2/resources/images/lrank.png
+++ b/Chapter2/resources/images/lrank.png
--- a/Chapter3/README.md
+++ b/Chapter3/README.md
@@ -1,14 +0,0 @@
 
				-# 第3章 线性模型
			
 
				-
			
 
				-### 3.1 基本形式
			
 
				-### 3.2 线性回归
			
 
				-- [3.7](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3/chapter3.md)
			
 
				-- [3.10](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3/chapter3.md)
			
 
				-### 3.3 对数几率回归
			
 
				-- [3.27](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3/chapter3.md)
			
 
				-- [3.30](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3/chapter3.md)
			
 
				-### 3.4 线性判别分析
			
 
				-- [3.32](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3/chapter3.md)
			
 
				-- [3.37](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3/chapter3.md)
			
 
				-### 3.5 多分类学习
			
 
				-### 3.6 类别不平衡问题
			
--- a/Chapter3/chapter3.md
+++ b/Chapter3/chapter3.md
@@ -1,109 +0,0 @@
 
				-### 3.7
			
 
				-
			
 
				-$$ w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2} $$
			
 
				-
			
 
				-[推导]：令式（3.5）等于0：
			
 
				-$$ 0 = w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i $$
			
 
				-$$ w\sum_{i=1}^{m}x_i^2 = \sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}bx_i $$
			
 
				-由于令式（3.6）等于0可得$ b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i) $，又$ \cfrac{1}{m}\sum_{i=1}^{m}y_i=\bar{y} $，$ \cfrac{1}{m}\sum_{i=1}^{m}x_i=\bar{x} $，则$ b=\bar{y}-w\bar{x} $，代入上式可得：
			
 
				-$$ 
			
 
				-\begin{aligned}	 
			
 
				-    w\sum_{i=1}^{m}x_i^2 & = \sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}(\bar{y}-w\bar{x})x_i \\\\
			
 
				-    w\sum_{i=1}^{m}x_i^2 & = \sum_{i=1}^{m}y_ix_i-\bar{y}\sum_{i=1}^{m}x_i+w\bar{x}\sum_{i=1}^{m}x_i \\\\
			
 
				-    w(\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i) & = \sum_{i=1}^{m}y_ix_i-\bar{y}\sum_{i=1}^{m}x_i \\\\
			
 
				-    w & = \cfrac{\sum_{i=1}^{m}y_ix_i-\bar{y}\sum_{i=1}^{m}x_i}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i}
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-又$ \bar{y}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}y_i\sum_{i=1}^{m}x_i=\bar{x}\sum_{i=1}^{m}y_i $，$ \bar{x}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}x_i\sum_{i=1}^{m}x_i=\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2 $，代入上式即可得式（3.7）：
			
 
				-$$ w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2} $$
			
 
				-
			
 
				-【注】：式（3.7）还可以进一步化简为能用向量表达的形式，将$ \cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2=\bar{x}\sum_{i=1}^{m}x_i $代入分母可得：
			
 
				-$$ 
			
 
				-\begin{aligned}	  
			
 
				-     w & = \cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i} \\\\
			
 
				-     & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x})}{\sum_{i=1}^{m}(x_i^2-x_i\bar{x})}
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-又$ \bar{y}\sum_{i=1}^{m}x_i=\bar{x}\sum_{i=1}^{m}y_i=\sum_{i=1}^{m}\bar{y}x_i=\sum_{i=1}^{m}\bar{x}y_i=m\bar{x}\bar{y}=\sum_{i=1}^{m}\bar{x}\bar{y} $，则上式可化为：
			
 
				-$$ 
			
 
				-\begin{aligned}
			
 
				-    w & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x}-x_i\bar{y}+\bar{x}\bar{y})}{\sum_{i=1}^{m}(x_i^2-x_i\bar{x}-x_i\bar{x}+\bar{x}^2)} \\\\
			
 
				-    & = \cfrac{\sum_{i=1}^{m}(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{m}(x_i-\bar{x})^2} 
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-若令$ \mathbf{X}=(x_1,x_2,...,x_m) $，$\mathbf{X}\_{demean}$为去均值后的$ \mathbf{X} $，$ \mathbf{y}=(y_1,y_2,...,y_m) $，$ \mathbf{y}\_{demean} $为去均值后的$ \mathbf{y} $，其中$ \mathbf{X} $、$ \mathbf{X}\_{demean} $、$ \mathbf{y} $、$ \mathbf{y}\_{demean} $均为m行1列的列向量，代入上式可得：
			
 
				-$$ w=\cfrac{\mathbf{X}\_{demean}\mathbf{y}\_{demean}^T}{\mathbf{X}\_{demean}\mathbf{X}\_{demean}^T}$$
			
 
				-### 3.10
			
 
				-
			
 
				-$$ \cfrac{\partial E_{\hat{w}}}{\partial \hat{w}}=2\mathbf{X}^T(\mathbf{X}\hat{w}-\mathbf{y}) $$
			
 
				-
			
 
				-[推导]：将$ E_{\hat{w}}=(\mathbf{y}-\mathbf{X}\hat{w})^T(\mathbf{y}-\mathbf{X}\hat{w}) $展开可得：
			
 
				-$$ E_{\hat{w}}= \mathbf{y}^T\mathbf{y}-\mathbf{y}^T\mathbf{X}\hat{w}-\hat{w}^T\mathbf{X}^T\mathbf{y}+\hat{w}^T\mathbf{X}^T\mathbf{X}\hat{w} $$
			
 
				-对$ \hat{w} $求导可得：
			
 
				-$$ \cfrac{\partial E_{\hat{w}}}{\partial \hat{w}}= \cfrac{\partial \mathbf{y}^T\mathbf{y}}{\partial \hat{w}}-\cfrac{\partial \mathbf{y}^T\mathbf{X}\hat{w}}{\partial \hat{w}}-\cfrac{\partial \hat{w}^T\mathbf{X}^T\mathbf{y}}{\partial \hat{w}}+\cfrac{\partial \hat{w}^T\mathbf{X}^T\mathbf{X}\hat{w}}{\partial \hat{w}} $$
			
 
				-由向量的求导公式可得：
			
 
				-$$ \cfrac{\partial E_{\hat{w}}}{\partial \hat{w}}= 0-\mathbf{X}^T\mathbf{y}-\mathbf{X}^T\mathbf{y}+(\mathbf{X}^T\mathbf{X}+\mathbf{X}^T\mathbf{X})\hat{w} $$
			
 
				-$$ \cfrac{\partial E_{\hat{w}}}{\partial \hat{w}}=2\mathbf{X}^T(\mathbf{X}\hat{w}-\mathbf{y}) $$
			
 
				-
			
 
				-### 3.27
			
 
				-
			
 
				-$$ l(β)=\sum_{i=1}^{m}(-y_iβ^T\hat{\boldsymbol x_i}+\ln(1+e^{β^T\hat{\boldsymbol x_i}})) $$
			
 
				-
			
 
				-[推导]：将式（3.26）代入式（3.25）可得：
			
 
				-$$ l(β,b)=\sum_{i=1}^{m}\ln(y_ip_1(\boldsymbol{\hat{x_i}};β)+(1-y_i)p_0(\boldsymbol{\hat{x_i}};β)) $$
			
 
				-其中$ p_1(\boldsymbol{\hat{x_i}};β)=\cfrac{e^{β^T\hat{\boldsymbol x_i}}}{1+e^{β^T\hat{\boldsymbol x_i}}},p_0(\boldsymbol{\hat{x_i}};β)=\cfrac{1}{1+e^{β^T\hat{\boldsymbol x_i}}} $，代入上式可得：
			
 
				-$$ l(β,b)=\sum_{i=1}^{m}\ln(\cfrac{y_ie^{β^T\hat{\boldsymbol x_i}}+1-y_i}{1+e^{β^T\hat{\boldsymbol x_i}}}) $$
			
 
				-$$ l(β,b)=\sum_{i=1}^{m}(\ln(y_ie^{β^T\hat{\boldsymbol x_i}}+1-y_i)-\ln(1+e^{β^T\hat{\boldsymbol x_i}})) $$
			
 
				-又$ y_i $=0或1，则：
			
 
				-$$ l(β,b) =
			
 
				-\begin{cases} 
			
 
				-\sum_{i=1}^{m}(-\ln(1+e^{β^T\hat{\boldsymbol x_i}})),  & y_i=0 \\\\
			
 
				-\sum_{i=1}^{m}(β^T\hat{\boldsymbol x_i}-\ln(1+e^{β^T\hat{\boldsymbol x_i}})), & y_i=1
			
 
				-\end{cases} $$
			
 
				-两式综合可得：
			
 
				-$$ l(β)=\sum_{i=1}^{m}(y_iβ^T\hat{\boldsymbol x_i}-\ln(1+e^{β^T\hat{\boldsymbol x_i}})) $$
			
 
				-由于此式仍为极大似然估计的似然函数，所以最大化似然函数等价于最小化似然函数的相反数，也即在似然函数前添加负号即可得式（3.27）。
			
 
				-
			
 
				-【注】：若式（3.26）中的似然项改写方式为$ p(y_i|\boldsymbol x_i;\boldsymbol w,b)=[p_1(\boldsymbol{\hat{x_i}};β)]^{y_i}[p_0(\boldsymbol{\hat{x_i}};β)]^{1-y_i} $，再将其代入式（3.25）可得：
			
 
				-$$ l(β)=\sum_{i=1}^{m}(y_i\ln(p_1(\boldsymbol{\hat{x_i}};β))+(1-y_i)\ln(p_0(\boldsymbol{\hat{x_i}};β))) $$
			
 
				-此式显然更易推导出式（3.27）
			
 
				-
			
 
				-### 3.30
			
 
				-
			
 
				-$$\frac{\partial l(β)}{\partial β}=-\sum_{i=1}^{m}\hat{\boldsymbol x_i}(y_i-p_1(\hat{\boldsymbol x_i};β))$$
			
 
				-
			
 
				-[解析]：此式可以进行向量化，令$p_1(\hat{\boldsymbol x_i};β)=\hat{y_i}$，代入上式得：
			
 
				-$$\begin{aligned}
			
 
				-	\frac{\partial l(β)}{\partial β} &= -\sum_{i=1}^{m}\hat{\boldsymbol x_i}(y_i-\hat{y_i}) \\\\
			
 
				-	& =\sum_{i=1}^{m}\hat{\boldsymbol x_i}(\hat{y_i}-y_i) \\\\
			
 
				-	& ={\boldsymbol X^T}(\hat{\boldsymbol y}-\boldsymbol{y}) \\\\
			
 
				-	& ={\boldsymbol X^T}(p_1(\boldsymbol X;β)-\boldsymbol{y}) \\\\
			
 
				-\end{aligned}$$
			
 
				-
			
 
				-### 3.32
			
 
				-
			
 
				-$$J=\cfrac{\boldsymbol w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^T\boldsymbol w}{\boldsymbol w^T(\Sigma_0+\Sigma_1)\boldsymbol w}$$
			
 
				-
			
 
				-[推导]：
			
 
				-$$\begin{aligned}
			
 
				-	J &= \cfrac{\big|\big|\boldsymbol w^T\mu_0-\boldsymbol w^T\mu_1\big|\big|_2^2}{\boldsymbol w^T(\Sigma_0+\Sigma_1)\boldsymbol w} \\\\
			
 
				-	&= \cfrac{\big|\big|(\boldsymbol w^T\mu_0-\boldsymbol w^T\mu_1)^T\big|\big|_2^2}{\boldsymbol w^T(\Sigma_0+\Sigma_1)\boldsymbol w} \\\\
			
 
				-	&= \cfrac{\big|\big|(\mu_0-\mu_1)^T\boldsymbol w\big|\big|_2^2}{\boldsymbol w^T(\Sigma_0+\Sigma_1)\boldsymbol w} \\\\
			
 
				-	&= \cfrac{[(\mu_0-\mu_1)^T\boldsymbol w]^T(\mu_0-\mu_1)^T\boldsymbol w}{\boldsymbol w^T(\Sigma_0+\Sigma_1)\boldsymbol w} \\\\
			
 
				-	&= \cfrac{\boldsymbol w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^T\boldsymbol w}{\boldsymbol w^T(\Sigma_0+\Sigma_1)\boldsymbol w}
			
 
				-\end{aligned}$$
			
 
				-
			
 
				-### 3.37
			
 
				-
			
 
				-$$\boldsymbol S_b\boldsymbol w=\lambda\boldsymbol S_w\boldsymbol w$$
			
 
				-
			
 
				-[推导]：由3.36可列拉格朗日函数：
			
 
				-$$l(\boldsymbol w)=-\boldsymbol w^T\boldsymbol S_b\boldsymbol w+\lambda(\boldsymbol w^T\boldsymbol S_w\boldsymbol w-1)$$
			
 
				-对$\boldsymbol w$求偏导可得：
			
 
				-$$\begin{aligned}
			
 
				-\cfrac{\partial l(\boldsymbol w)}{\partial \boldsymbol w} &= -\cfrac{\partial(\boldsymbol w^T\boldsymbol S_b\boldsymbol w)}{\partial \boldsymbol w}+\lambda \cfrac{(\boldsymbol w^T\boldsymbol S_w\boldsymbol w-1)}{\partial \boldsymbol w} \\\\
			
 
				-	&= -(\boldsymbol S_b+\boldsymbol S_b^T)\boldsymbol w+\lambda(\boldsymbol S_w+\boldsymbol S_w^T)\boldsymbol w
			
 
				-\end{aligned}$$
			
 
				-又$\boldsymbol S_b=\boldsymbol S_b^T,\boldsymbol S_w=\boldsymbol S_w^T$，则：
			
 
				-$$\cfrac{\partial l(\boldsymbol w)}{\partial \boldsymbol w} = -2\boldsymbol S_b\boldsymbol w+2\lambda\boldsymbol S_w\boldsymbol w$$
			
 
				-令导函数等于0即可得式3.37。
			
--- a/Chapter4/README.md
+++ b/Chapter4/README.md
@@ -1,16 +0,0 @@
 
				-# 第4章 决策树
			
 
				-
			
 
				-### 4.1 基本流程
			
 
				-
			
 
				-### 4.2 划分选择
			
 
				-
			
 
				-- [4.1](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4/chapter4.md)
			
 
				-- [4.2](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4/chapter4.md)
			
 
				-- [4.3](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4/chapter4.md)
			
 
				-- [4.5](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4/chapter4.md)
			
 
				-- [4.6](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4/chapter4.md)
			
 
				-
			
 
				-### 4.3 剪支处理
			
 
				-### 4.4 连续与缺失值
			
 
				-- [4.7-4.8](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4/chapter4.md)
			
 
				-### 4.5 多变量决策树
			
--- a/Chapter4/chapter4.md
+++ b/Chapter4/chapter4.md
@@ -1,78 +0,0 @@
 
				-### 4.1
			
 
				-$$Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
			
 
				-[解析]：熵是度量样本集合纯度最常用的一种指标，代表一个系统中蕴含多少信息量，信息量越大表明一个系统不确定性就越大，就存在越多的可能性。
			
 
				-
			
 
				-假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ，则 $D$ 的信息熵为：
			
 
				-
			
 
				-$$
			
 
				-Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}
			
 
				-$$
			
 
				-
			
 
				-其中，当样本 $D$ 中 $|y|$ 类样本均匀分布时，这时信息熵最大，其值为
			
 
				-$$
			
 
				-Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|}
			
 
				-$$
			
 
				-此时样本D的纯度越小；
			
 
				-
			
 
				-相反，假设样本D中只有一类样本，此时信息熵最小，其值为
			
 
				-$$
			
 
				-Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0
			
 
				-$$
			
 
				-此时样本的纯度最大。
			
 
				-
			
 
				-### 4.2
			
 
				-$$
			
 
				-Gain(D,a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent({D^v})
			
 
				-$$
			
 
				-[解析]：假定在样本D中有某个**离散特征** $a$ 有 $V$ 个可能的取值 $(a^1,a^2,...,a^V)$，若使用特征 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在特征 $a$ 上取值为 $a^v$ 的样本，样本记为 $D^v$，由于根据离散特征a的每个值划分的 $V$ 个分支结点下的样本数量不一致，对于这 $V$ 个分支结点赋予权重 $\frac{|D^v|}{|D|}$，即样本数越多的分支结点的影响越大，特征 $a$ 对样本集 $D$ 进行划分所获得的“信息增益”为
			
 
				-$$
			
 
				-Gain(D,a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent({D^v})
			
 
				-$$
			
 
				-信息增益越大，表示使用特征a来对样本集进行划分所获得的纯度提升越大。
			
 
				-
			
 
				-**缺点**：由于在计算信息增益中倾向于特征值越多的特征进行优先划分，这样假设某个特征值的离散值个数与样本集 $D$ 个数相同（假设为样本编号），虽然用样本编号对样本进行划分，样本纯度提升最高，但是并不具有泛化能力。
			
 
				-
			
 
				-### 4.3
			
 
				-$$
			
 
				-Gain-ratio(D,a)=\frac{Gain(D,a)}{IV(a)}
			
 
				-$$
			
 
				-[解析]：基于信息增益的缺点，$C4.5$ 算法不直接使用信息增益，而是使用一种叫增益率的方法来选择最优特征进行划分，对于样本集 $D$ 中的离散特征 $a$ ，增益率为
			
 
				-$$
			
 
				-Gain-ratio(D,a)=\frac{Gain(D,a)}{IV(a)} 
			
 
				-$$
			
 
				-其中，
			
 
				-$$
			
 
				-IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}
			
 
				-$$
			
 
				-IV(a) 是特征 a 的熵。
			
 
				-
			
 
				-增益率对特征值较少的特征有一定偏好，因此 $C4.5$ **算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征，再从这些特征中选择增益率最高的**。
			
 
				-
			
 
				-### 4.5
			
 
				-$$
			
 
				-\begin{aligned}
			
 
				-Gini(D) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p_{k'}}\\\\
			
 
				-&=1-\sum_{k=1}^{|y|}p_k^2 
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-[推导]：假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$，则 $D$ 的**基尼值**为
			
 
				-$$
			
 
				-\begin{split}
			
 
				-Gini(p) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p_{k'}}\\\\
			
 
				-&=\sum_{k=1}^{|y|}{p_k}{(1-p_k)} \\\\
			
 
				-&=1-\sum_{k=1}^{|y|}p_k^2 
			
 
				-\end{split}
			
 
				-$$
			
 
				-
			
 
				-### 4.7 - 4.8
			
 
				-
			
 
				-[解析]：样本集 $D$ 中的**连续特征** $a$，假设特征 $a$ 有 $n$ 个不同的取值，对其进行大小排序，记为 $\lbrace{a^1,a^2,...,a^n}\rbrace$，根据特征 $a$ 可得到 $n-1$ 个划分点 $t$，划分点 $t$ 的集合为
			
 
				-$$
			
 
				-T_a=\lbrace{\frac{a^i+a^{i+1}}{2}|1\leq{i}\leq{n-1}}\rbrace \tag {4.7}
			
 
				-$$
			
 
				-对于取值集合 $ T_a$  中的每个 $t$  值计算将特征 $a$  离散为一个特征值只有两个值，分别是 $\lbrace{a} >t\rbrace$ 和 $\lbrace{a} \leq{t}\rbrace$  的特征，计算新特征的信息增益，找到信息增益最大的 $t$ 值即为该特征的最优划分点。
			
 
				-$$
			
 
				-\begin{split}
			
 
				-Gain(D,a) &= \max\limits_{t \in T_a} \ Gain(D,a) \\\\
			
 
				-&= \max\limits_{t \in T_a} \ Ent(D)-\sum_{\lambda \in \{-,+\}} \frac{\left | D_t^{\lambda } \right |}{\left |D  \right |}Ent(D_t^{\lambda }) \end{split} \tag{4.8}
			
 
				-$$
			
--- a/Chapter5/READEME.md
+++ b/Chapter5/READEME.md
@@ -1,12 +0,0 @@
 
				-# 第5章 神经网络
			
 
				-
			
 
				-### 5.1 神经元模型
			
 
				-### 5.2 感知机与多层网络
			
 
				-- [5.2](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md)
			
 
				-### 5.3 误差逆传播算法
			
 
				-- [5.12](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md)
			
 
				-- [5.13](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md)
			
 
				-- [5.14](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5/chapter5.md)
			
 
				-### 5.4 全局最小与局部极小
			
 
				-### 5.5 其他常见神经网络
			
 
				-### 5.6 深度学习
			
--- a/Chapter5/chapter5.md
+++ b/Chapter5/chapter5.md
@@ -1,64 +0,0 @@
 
				-### 5.2
			
 
				-$$\Delta w\_i = \eta(y-\hat{y})x\_i$$
			
 
				-[推导]：此处感知机的模型为：
			
 
				-$$y=f(\sum\_{i} w\_i x\_i - \theta)$$
			
 
				-将$\theta$看成哑结点后，模型可化简为：
			
 
				-$$y=f(\sum\_{i} w\_i x\_i)=f(\boldsymbol w^T \boldsymbol x)$$
			
 
				-其中$f$为阶跃函数。<br>根据《统计学习方法》§2可知，假设误分类点集合为$M$，$\boldsymbol x\_i \in M$为误分类点，$\boldsymbol x\_i$的真实标签为$y\_i$,模型的预测值为$\hat{y\_i}$,对于误分类点$\boldsymbol x\_i$来说，此时$\boldsymbol w^T \boldsymbol x\_i \gt 0,\hat{y\_i}=1,y\_i=0$或$\boldsymbol w^T \boldsymbol x\_i \lt 0,\hat{y\_i}=0,y\_i=1$,综合考虑两种情形可得：
			
 
				-$$(\hat{y\_i}-y\_i)\boldsymbol w \boldsymbol x\_i>0$$
			
 
				-所以可以推得损失函数为：
			
 
				-$$L(\boldsymbol w)=\sum\_{\boldsymbol x\_i \in M} (\hat{y\_i}-y\_i)\boldsymbol w \boldsymbol x\_i$$
			
 
				-损失函数的梯度为：
			
 
				-$$\nabla\_w L(\boldsymbol w)=\sum\_{\boldsymbol x\_i \in M} (\hat{y\_i}-y\_i)\boldsymbol x\_i$$
			
 
				-随机选取一个误分类点$(\boldsymbol x\_i,y\_i)$，对$\boldsymbol w$进行更新：
			
 
				-$$\boldsymbol w \leftarrow \boldsymbol w-\eta(\hat{y\_i}-y\_i)\boldsymbol x\_i=\boldsymbol w+\eta(y\_i-\hat{y\_i})\boldsymbol x\_i$$
			
 
				-显然式5.2为$\boldsymbol w$的第$i$个分量$w\_i$的变化情况
			
 
				-### 5.12
			
 
				-$$\Delta \theta\_j = -\eta g\_j$$
			
 
				-[推导]：因为
			
 
				-$$\Delta \theta\_j = -\eta \cfrac{\partial E\_k}{\partial \theta\_j}$$
			
 
				-又
			
 
				-$$
			
 
				-\begin{aligned}	
			
 
				-\cfrac{\partial E\_k}{\partial \theta\_j} &= \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot\cfrac{\partial \hat{y}\_j^k}{\partial \theta\_j} \\\\
			
 
				-&= (\hat{y}\_j^k-y\_j^k) \cdot f’(\beta\_j-\theta\_j) \cdot (-1) \\\\
			
 
				-&= -(\hat{y}\_j^k-y\_j^k)f’(\beta\_j-\theta\_j) \\\\
			
 
				-&= g\_j
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-所以
			
 
				-$$\Delta \theta\_j = -\eta \cfrac{\partial E\_k}{\partial \theta\_j}=-\eta g\_j$$
			
 
				-### 5.13
			
 
				-$$\Delta v\_{ih} = \eta e\_h x\_i$$
			
 
				-[推导]：因为
			
 
				-$$\Delta v\_{ih} = -\eta \cfrac{\partial E\_k}{\partial v\_{ih}}$$
			
 
				-又
			
 
				-$$
			
 
				-\begin{aligned}	
			
 
				-\cfrac{\partial E\_k}{\partial v\_{ih}} &= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot \cfrac{\partial b\_h}{\partial \alpha\_h} \cdot \cfrac{\partial \alpha\_h}{\partial v\_{ih}} \\\\
			
 
				-&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot \cfrac{\partial b\_h}{\partial \alpha\_h} \cdot x\_i \\\\ 
			
 
				-&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot f’(\alpha\_h-\gamma\_h) \cdot x\_i \\\\
			
 
				-&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot w\_{hj} \cdot f’(\alpha\_h-\gamma\_h) \cdot x\_i \\\\
			
 
				-&= \sum\_{j=1}^{l} (-g\_j) \cdot w\_{hj} \cdot f’(\alpha\_h-\gamma\_h) \cdot x\_i \\\\
			
 
				-&= -f’(\alpha\_h-\gamma\_h) \cdot \sum\_{j=1}^{l} g\_j \cdot w\_{hj}  \cdot x\_i\\\\
			
 
				-&= -b\_h(1-b\_h) \cdot \sum\_{j=1}^{l} g\_j \cdot w\_{hj}  \cdot x\_i \\\\
			
 
				-&= -e\_h \cdot x\_i
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-所以
			
 
				-$$\Delta v\_{ih} = -\eta \cdot -e\_h \cdot x\_i=\eta e\_h x\_i$$
			
 
				-### 5.14
			
 
				-$$\Delta \gamma\_h= -\eta e\_h$$
			
 
				-[推导]：因为
			
 
				-$$\Delta \gamma\_h = -\eta \cfrac{\partial E\_k}{\partial \gamma\_h}$$
			
 
				-又
			
 
				-$$
			
 
				-\begin{aligned}	
			
 
				-\cfrac{\partial E\_k}{\partial \gamma\_h} &= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot \cfrac{\partial b\_h}{\partial \gamma\_h} \\\\
			
 
				-&= \sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot \cfrac{\partial \beta\_j}{\partial b\_h} \cdot f’(\alpha\_h-\gamma\_h) \cdot (-1) \\\\
			
 
				-&= -\sum\_{j=1}^{l} \cfrac{\partial E\_k}{\partial \hat{y}\_j^k} \cdot \cfrac{\partial \hat{y}\_j^k}{\partial \beta\_j} \cdot w\_{hj} \cdot f’(\alpha\_h-\gamma\_h)\\\\
			
 
				-&=e\_h
			
 
				-\end{aligned}
			
 
				-$$
			
 
				-所以
			
 
				-$$\Delta \gamma\_h= -\eta e\_h$$
			
--- a/Chapter6/README.md
+++ b/Chapter6/README.md
@@ -1,11 +0,0 @@
 
				-# 第6章 支持向量机
			
 
				-
			
 
				-## 6.1 间隔与支持向量
			
 
				-- [6.9-6.10](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md)
			
 
				-- [6.11](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md)
			
 
				-## 6.3 核函数
			
 
				-## 6.4 软间隔与正则化
			
 
				-- [6.39](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md)
			
 
				-- [6.40](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6/chapter6.md)
			
 
				-## 6.5 支持向量回归
			
 
				-## 6.6 核方法
			
--- a/Chapter6/chapter6.md
+++ b/Chapter6/chapter6.md
@@ -1,75 +0,0 @@
 
				-### 6.9-6.10
			
 
				-$$\begin{aligned}
			
 
				-w &= \sum\_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i \\\\
			
 
				-0 &=\sum\_{i=1}^m\alpha\_iy\_i
			
 
				-\end{aligned}$$
			
 
				-[推导]：式（6.8）可作如下展开：
			
 
				-$$\begin{aligned}
			
 
				-L(\boldsymbol{w},b,\boldsymbol{\alpha}) &= \frac{1}{2}||\boldsymbol{w}||^2+\sum\_{i=1}^m\alpha\_i(1-y\_i(\boldsymbol{w}^T\boldsymbol{x}\_i+b)) \\\\
			
 
				-& =  \frac{1}{2}||\boldsymbol{w}||^2+\sum\_{i=1}^m(\alpha\_i-\alpha\_iy\_i \boldsymbol{w}^T\boldsymbol{x}\_i-\alpha\_iy\_ib)\\\\
			
 
				-& =\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum\_{i=1}^m\alpha\_i -\sum\_{i=1}^m\alpha\_iy\_i\boldsymbol{w}^T\boldsymbol{x}\_i-\sum\_{i=1}^m\alpha\_iy\_ib
			
 
				-\end{aligned}$$
			
 
				-对$\boldsymbol{w}$和$b$分别求偏导数并令其等于0：
			
 
				-
			
 
				-$$\frac {\partial L}{\partial \boldsymbol{w}}=\frac{1}{2}\times2\times\boldsymbol{w} + 0 - \sum\_{i=1}^{m}\alpha\_iy\_i \boldsymbol{x}\_i-0= 0 \Longrightarrow \boldsymbol{w}=\sum\_{i=1}^{m}\alpha\_iy\_i \boldsymbol{x}\_i$$
			
 
				-
			
 
				-$$\frac {\partial L}{\partial b}=0+0-0-\sum\_{i=1}^{m}\alpha\_iy\_i=0  \Longrightarrow  \sum\_{i=1}^{m}\alpha\_iy\_i=0$$		
			
 
				-
			
 
				-### 6.11
			
 
				-$$\begin{aligned}
			
 
				-\max\_{\boldsymbol{\alpha}} & \sum\_{i=1}^m\alpha\_i - \frac{1}{2}\sum\_{i = 1}^m\sum\_{j=1}^m\alpha\_i \alpha\_j y\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j \\\\
			
 
				-s.t. & \sum\_{i=1}^m \alpha\_i y\_i =0 \\\\ 
			
 
				-& \alpha\_i \geq 0 \quad i=1,2,\dots ,m
			
 
				-\end{aligned}$$  
			
 
				-[推导]：将式 (6.9)代人 (6.8) ，即可将$L(\boldsymbol{w},b,\boldsymbol{\alpha})$ 中的 $\boldsymbol{w}$ 和 $b$ 消去,再考虑式 (6.10) 的约束,就得到式 (6.6) 的对偶问题：
			
 
				-$$\begin{aligned}
			
 
				-\min\_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha})  &=\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum\_{i=1}^m\alpha\_i -\sum\_{i=1}^m\alpha\_iy\_i\boldsymbol{w}^T\boldsymbol{x}\_i-\sum\_{i=1}^m\alpha\_iy\_ib \\\\
			
 
				-&=\frac {1}{2}\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i-\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_
			
 
				-i -b\sum \_{i=1}^m\alpha\_iy\_i \\\\
			
 
				-& = -\frac {1}{2}\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i -b\sum \_{i=1}^m\alpha\_iy\_i
			
 
				-\end{aligned}$$
			
 
				-又$\sum\limits\_{i=1}^{m}\alpha\_iy\_i=0$，所以上式最后一项可化为0，于是得：
			
 
				-$$\begin{aligned}
			
 
				-\min\_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) &= -\frac {1}{2}\boldsymbol{w}^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i \\\\
			
 
				-&=-\frac {1}{2}(\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i)^T(\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i)+\sum \_{i=1}^m\alpha\_i \\\\
			
 
				-&=-\frac {1}{2}\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i \\\\
			
 
				-&=\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j
			
 
				-\end{aligned}$$
			
 
				-所以
			
 
				-$$\max\_{\boldsymbol{\alpha}}\min\_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) =\max\_{\boldsymbol{\alpha}} \sum\_{i=1}^m\alpha\_i - \frac{1}{2}\sum\_{i = 1}^m\sum\_{j=1}^m\alpha\_i \alpha\_j y\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j $$
			
 
				-### 6.39
			
 
				-$$ C=\alpha\_i +\mu\_i $$
			
 
				-[推导]：对式（6.36）关于$\xi\_i$求偏导并令其等于0可得：
			
 
				-                                                     
			
 
				-$$\frac{\partial L}{\partial \xi\_i}=0+C \times 1 - \alpha\_i \times 1-\mu\_i
			
 
				-\times 1 =0\Longrightarrow C=\alpha\_i +\mu\_i$$
			
 
				-
			
 
				-### 6.40
			
 
				-$$\begin{aligned}
			
 
				-\max\_{\boldsymbol{\alpha}}&\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j \\\\
			
 
				- s.t. &\sum\_{i=1}^m \alpha\_i y\_i=0 \\\\ 
			
 
				- &  0 \leq\alpha\_i \leq C \quad i=1,2,\dots ,m
			
 
				- \end{aligned}$$
			
 
				-将式6.37-6.39代入6.36可以得到6.35的对偶问题：
			
 
				-$$\begin{aligned}
			
 
				- \min\_{\boldsymbol{w},b,\boldsymbol{\xi}}L(\boldsymbol{w},b,\boldsymbol{\alpha},\boldsymbol{\xi},\boldsymbol{\mu}) &= \frac{1}{2}||\boldsymbol{w}||^2+C\sum\_{i=1}^m \xi\_i+\sum\_{i=1}^m \alpha\_i(1-\xi\_i-y\_i(\boldsymbol{w}^T\boldsymbol{x}\_i+b))-\sum\_{i=1}^m\mu\_i \xi\_i  \\\\
			
 
				-&=\frac{1}{2}||\boldsymbol{w}||^2+\sum\_{i=1}^m\alpha\_i(1-y\_i(\boldsymbol{w}^T\boldsymbol{x}\_i+b))+C\sum\_{i=1}^m \xi\_i-\sum\_{i=1}^m \alpha\_i \xi\_i-\sum\_{i=1}^m\mu\_i \xi\_i \\\\
			
 
				-& = -\frac {1}{2}\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i +\sum\_{i=1}^m C\xi\_i-\sum\_{i=1}^m \alpha\_i \xi\_i-\sum\_{i=1}^m\mu\_i \xi\_i \\\\
			
 
				-&  = -\frac {1}{2}\sum\_{i=1}^{m}\alpha\_iy\_i\boldsymbol{x}\_i^T\sum \_{i=1}^m\alpha\_iy\_i\boldsymbol{x}\_i+\sum \_{i=1}^m\alpha\_i +\sum\_{i=1}^m (C-\alpha\_i-\mu\_i)\xi\_i \\\\
			
 
				-&=\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j
			
 
				-\end{aligned}$$  
			
 
				-所以
			
 
				-$$\begin{aligned}
			
 
				-\max\_{\boldsymbol{\alpha},\boldsymbol{\mu}} \min\_{\boldsymbol{w},b,\boldsymbol{\xi}}L(\boldsymbol{w},b,\boldsymbol{\alpha},\boldsymbol{\xi},\boldsymbol{\mu})&=\max\_{\boldsymbol{\alpha},\boldsymbol{\mu}}\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j \\\\
			
 
				-&=\max\_{\boldsymbol{\alpha}}\sum \_{i=1}^m\alpha\_i-\frac {1}{2}\sum\_{i=1 }^{m}\sum\_{j=1}^{m}\alpha\_i\alpha\_jy\_iy\_j\boldsymbol{x}\_i^T\boldsymbol{x}\_j 
			
 
				-\end{aligned}$$
			
 
				-又
			
 
				-$$\begin{aligned}
			
 
				-\alpha\_i &\geq 0 \\\\
			
 
				-\mu\_i &\geq 0 \\\\
			
 
				-C &= \alpha\_i+\mu\_i
			
 
				-\end{aligned}$$
			
 
				-消去$\mu\_i$可得等价约束条件为：
			
 
				-$$0 \leq\alpha\_i \leq C \quad i=1,2,\dots ,m$$
			
 
				-
			
 
				-
			
--- a/Chapter7/README.md
+++ b/Chapter7/README.md
@@ -1,12 +0,0 @@
 
				-# 第7章 贝叶斯分类器
			
 
				-
			
 
				-### 7.1 贝叶斯决策论
			
 
				-
			
 
				-- [7.5](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter7/chapter7.md)
			
 
				-- [7.8](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter7/chapter7.md)
			
 
				-
			
 
				-### 7.2 极大似然估计
			
 
				-### 7.3 朴素贝叶斯分类器
			
 
				-### 7.4 半朴素贝叶斯分类器
			
 
				-### 7.5 贝叶斯网
			
 
				-### 7.6 EM算法
			
--- a/Chapter7/chapter7.md
+++ b/Chapter7/chapter7.md
@@ -1,54 +0,0 @@
 
				-### 7.5
			
 
				-$$R(c|\boldsymbol x)=1−P(c|\boldsymbol x)$$
			
 
				-[推导]：由式7.1和式7.4可得：
			
 
				-$$R(c_i|\boldsymbol x)=1\*P(c_1|\boldsymbol x)+1\*P(c_2|\boldsymbol x)+...+0\*P(c_i|\boldsymbol x)+...+1\*P(c_N|\boldsymbol x)$$
			
 
				-又$\sum_{j=1}^{N}P(c_j|\boldsymbol x)=1$，则：
			
 
				-$$R(c_i|\boldsymbol x)=1-P(c_i|\boldsymbol x)$$
			
 
				-此即为式7.5
			
 
				-### 7.8
			
 
				-$$P(c|\boldsymbol x)=\cfrac{P(c)P(\boldsymbol x|c)}{P(\boldsymbol x)}$$
			
 
				-[解析]：最小化误差，也就是最大化P(c|x)，但由于P(c|x)属于后验概率无法直接计算，由贝叶斯公式可计算出:
			
 
				-$$P(c|\boldsymbol x)=\cfrac{P(c)P(\boldsymbol x|c)}{P(\boldsymbol x)}$$
			
 
				-$P(\boldsymbol x)$可以省略，因为我们比较的时候$P(\boldsymbol x)$一定是相同的，所以我们就是用历史数据计算出$P(c)$和$P(\boldsymbol x|c)$。
			
 
				-1. $P(c)$根据大数定律，当样本量到了一定程度且服从独立同分布，c的出现的频率就是c的概率。
			
 
				-2. $P(\boldsymbol x|c)$，因为$\boldsymbol x$在这里不对单一元素是个矩阵，涉及n个元素，不太好直接统计分类为c时，$\boldsymbol x$的概率，所以我们根据假设独立同分布，对每个$\boldsymbol x$的每个特征分别求概率
			
 
				-$$P(\boldsymbol x|c)=P(x_1|c)\*P(x_2|c)\*P(x_3|c)...\*P(x_n|c)$$
			
 
				-这个式子就可以很方便的通过历史数据去统计了,比如特征n，就是在分类为c时特征n出现的概率，在数据集中应该是用1显示。
			
 
				-但是当某一概率为0时会导致整个式子概率为0，所以采用拉普拉斯修正
			
 
				-
			
 
				-当样本属性独依赖时，也就是除了c多加一个依赖条件，式子变成了
			
 
				-$$∏_{i=1}^n P(x_i|c,p_i)$$
			
 
				-$p_i$是$x_i$所依赖的属性
			
 
				-
			
 
				-当样本属性相关性未知时,我们采用贝叶斯网的算法，对相关性进行评估，以找出一个最佳的分类模型。
			
 
				-
			
 
				-当遇到不完整的训练样本时，可通过使用EM算法对模型参数进行评估来解决。
			
 
				-
			
 
				-### 附录
			
 
				-##### sklearn调包
			
 
				-
			
 
				-```python
			
 
				- import numpy as np
			
 
				- X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
			
 
				- Y = np.array([1, 1, 1, 2, 2, 2])
			
 
				-from sklearn.naive_bayes import GaussianNB
			
 
				- clf = GaussianNB()
			
 
				-clf.fit(X, Y)
			
 
				-GaussianNB(priors=None, var_smoothing=1e-09)
			
 
				-print(clf.predict([[-0.8, -1]]))
			
 
				-```
			
 
				-##### 参数:	
			
 
				-priors : array-like, shape (n_classes,)
			
 
				-Prior probabilities of the classes. If specified the priors are not adjusted according to the data.
			
 
				-
			
 
				-var_smoothing : float, optional (default=1e-9)
			
 
				-Portion of the largest variance of all features that is added to variances for calculation stability.
			
 
				-
			
 
				-##### 贝叶斯应用
			
 
				-
			
 
				-1. 中文分词
			
 
				-分词后，得分的假设是基于两词之间是独立的，后词的出现与前词无关
			
 
				-2. 统计机器翻译
			
 
				-统计机器翻译因为其简单，无需手动添加规则，迅速成为了机器翻译的事实标准。
			
 
				-3. 贝叶斯图像识别
			
 
				-首先是视觉系统提取图形的边角特征，然后使用这些特征自底向上地激活高层的抽象概念，然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。
			
--- a/README.md
+++ b/README.md
@@ -1,7 +1,6 @@
 
				-<h1>南瓜书PumpkinBook</h1>
			
 
				-
			
 
				+# 南瓜书PumpkinBook
			
 
				 [西瓜书（周志华《机器学习》）](https://book.douban.com/subject/26708119)是机器学习领域的经典入门教材之一，周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述，但是这对那些想深究公式推导细节的读者来说可能“不太友好”，本书旨在对西瓜书里比较难理解的公式加以解析，以及对部分公式补充具体的推导细节，诚挚欢迎每一位西瓜书读者前来参与完善本书：一个人可以走的很快，但是一群人却可以走的更远。
			
 
				-
			
 
				+# 选用的西瓜书版本
			
 
				 <img src="https://img1.doubanio.com/view/subject/l/public/s28735609.jpg" width = "476.7" height = "555.3">
			
 
				 
			
 
				 > 书名：机器学习<br>
			
@@ -10,26 +9,31 @@
 
				 > 版次：2016年1月第1版<br>
			
 
				 > 勘误表：http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm
			
 
				 
			
 
				-
			
 
				-## 目录
			
 
				-
			
 
				-- 第1章 [绪论](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter1)
			
 
				-- 第2章 [模型评估与选择](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter2)
			
 
				-- 第3章 [线性模型](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter3)
			
 
				-- 第4章 [决策树](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter4)
			
 
				-- 第5章 [神经网络](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter5)
			
 
				-- 第6章 [支持向量机](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter6)
			
 
				-- 第7章 [贝叶斯分类器](https://github.com/Datawhale18/pumpkin-book/blob/master/Chapter7)
			
 
				-
			
 
				-## 在线阅读须知
			
 
				-
			
 
				-由于目前Github暂不支持在Markdown中嵌入LaTeX公式，所以在线阅读时需要用
			
 
				-Chrome浏览器+[MathJax Plugin for Github](https://chrome.google.com/webstore/detail/mathjax-plugin-for-github/ioemnmodlmafdkllaclgeombjnmnbima)扩展的方式才能看到公式，扩展离线安装包参见`plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx`
			
 
				-
			
 
				-
			
 
				-##  协作规范
			
 
				-
			
 
				-##### 文档书写规范：
			
 
				+# 在线阅读地址
			
 
				+https://datawhale18.github.io/pumpkin-book/
			
 
				+
			
 
				+# 目录
			
 
				+
			
 
				+- 第1章 [绪论](https://datawhale18.github.io/pumpkin-book/#/chapter1/chapter1)
			
 
				+- 第2章 [模型评估与选择](https://datawhale18.github.io/pumpkin-book/#/chapter2/chapter2)
			
 
				+- 第3章 [线性模型](https://datawhale18.github.io/pumpkin-book/#/chapter3/chapter3)
			
 
				+- 第4章 [决策树](https://datawhale18.github.io/pumpkin-book/#/chapter4/chapter4)
			
 
				+- 第5章 [神经网络](https://datawhale18.github.io/pumpkin-book/#/chapter5/chapter5)
			
 
				+- 第6章 [支持向量机](https://datawhale18.github.io/pumpkin-book/#/chapter6/chapter6)
			
 
				+- 第7章 [贝叶斯分类器](https://datawhale18.github.io/pumpkin-book/#/chapter7/chapter7)
			
 
				+- 第8章 集成学习
			
 
				+- 第9章 聚类
			
 
				+- 第10章 降维与度量学习
			
 
				+- 第11章 特征选择与稀疏学习
			
 
				+- 第12章 计算学习理论
			
 
				+- 第13章 半监督学习
			
 
				+- 第14章 概率图模型
			
 
				+- 第15章 规则学习
			
 
				+- 第16章 强化学习
			
 
				+
			
 
				+#  协作规范
			
 
				+
			
 
				+### 文档书写规范：
			
 
				 文档采用Markdown语法编写，数学公式采用LaTeX语法编写，数学符号规范参见西瓜书《主要符号表》。
			
 
				 
			
 
				 |          | 格式     | 参考资料                                                     |
			
@@ -38,56 +42,32 @@ Chrome浏览器+[MathJax Plugin for Github](https://chrome.google.com/webstore/d
 
				 | 数学公式 | LaTeX    | 1. CSDN Latex语法编写数学公式 http://t.cn/E469pdI<br>2.Latex 在线编辑工具 http://latex.codecogs.com/eqneditor/editor.php |
			
 
				 
			
 
				 
			
 
				-##### 目录结构规范：
			
 
				+### 目录结构规范：
			
 
				 
			
 
				 ```
			
 
				 pumpkin-book
			
 
				-├─Chapter1  # 第1章
			
 
				-│  ├─resources  # 资源文件夹
			
 
				-|  |  └─images  # 图片资源
			
 
				-|  ├─chapter1.md # 第1章公式全解
			
 
				-|  └─README.md  # 章节目录
			
 
				-└─Chapter2
			
 
				-```
			
 
				-##### 公式全解文档规范：
			
 
				-```
			
 
				-### 公式编号
			
 
				-$$公式的LaTeX表达式$$
			
 
				-[推导]：公式推导步骤
			
 
				-[解析]：公式解析说明
			
 
				-### 附录
			
 
				-附录内容
			
 
				+├─docs
			
 
				+|  ├─chapter1  # 第1章
			
 
				+|  |  ├─resources  # 资源文件夹
			
 
				+|  |  |  └─images  # 图片资源
			
 
				+|  |  └─chapter1.md # 第1章公式全解
			
 
				+|  ├─chapter2
			
 
				+...
			
 
				 ```
			
 
				-样例参见`Chapter2/chapter2.md`和`Chapter3/chapter3.md`
			
 
				-##### 章节目录文档规范：
			
 
				+### 公式全解文档规范：
			
 
				 ```
			
 
				-# 章节编号和名称
			
 
				-### 子章节编号和名称
			
 
				-- [公式编号](公式全解文档链接)
			
 
				+## 公式编号
			
 
				+$$（公式的LaTeX表达式）$$
			
 
				+[推导]：（公式推导步骤） or [解析]：（公式解析说明）
			
 
				+## 附录
			
 
				+（附录内容）
			
 
				 ```
			
 
				-样例参见`Chapter2/README.md`和`Chapter3/README.md`
			
 
				-
			
 
				-## 基础工作
			
 
				-
			
 
				-1. [大纲梳理] 西瓜书输出一个目录  [@spareribs](https://github.com/spareribs) 
			
 
				-
			
 
				-   参考 [《统计学习方法》](https://github.com/WenDesi/lihang_book_algorithm) 和 [《Python 数据分析与挖掘实战 》](https://github.com/apachecn/python_data_analysis_and_mining_action) 制作《南瓜书》大纲
			
 
				-
			
 
				-2. [推导示例] 简单输出一个推导的demo提供参考  [@Sm1les](https://github.com/Sm1les) 
			
 
				-
			
 
				-3. [文档规范] 指定相关规范文档
			
 
				-
			
 
				-4. [文档展示] 暂时先用浏览器扩展辅助展示，后期考虑用Github Pages或者自建网站展示 #TODO
			
 
				-
			
 
				-
			
 
				-## 未来计划
			
 
				-
			
 
				-1. 内部试行第0期
			
 
				-2. 总结第0期经验，后期带学员一起推导
			
 
				+样例参见`docs/chapter2/chapter2.md`和`docs/chapter3/chapter3.md`
			
 
				 
			
 
				 ## 关注我们
			
 
				 
			
 
				 <div align=center><img src="https://img-blog.csdnimg.cn/20181219162146245.png" width = "250" height = "270"></div>
			
 
				 
			
 
				-
			
 
				+# LICENSE
			
 
				+[GNU General Public License v3.0](https://github.com/Datawhale18/pumpkin-book/blob/master/LICENSE)
			
 
				 
			
--- a/docs/README.md
+++ b/docs/README.md
@@ -1,2 +1,17 @@
 
				-<h1>南瓜书PumpkinBook</h1>
			
 
				-Loading...
			
 
				+# 南瓜书PumpkinBook
			
 
				+[西瓜书（周志华《机器学习》）](https://book.douban.com/subject/26708119)是机器学习领域的经典入门教材之一，周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述，但是这对那些想深究公式推导细节的读者来说可能“不太友好”，本书旨在对西瓜书里比较难理解的公式加以解析，以及对部分公式补充具体的推导细节，诚挚欢迎每一位西瓜书读者前来参与完善本书：一个人可以走的很快，但是一群人却可以走的更远。
			
 
				+# 选用的西瓜书版本
			
 
				+<img src="https://img1.doubanio.com/view/subject/l/public/s28735609.jpg" width = "476.7" height = "555.3">
			
 
				+
			
 
				+> 书名：机器学习<br>
			
 
				+> 作者：周志华<br>
			
 
				+> 出版社：清华大学出版社<br>
			
 
				+> 版次：2016年1月第1版<br>
			
 
				+> 勘误表：http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/MLbook2016.htm
			
 
				+
			
 
				+## 关注我们
			
 
				+
			
 
				+<div align=center><img src="https://img-blog.csdnimg.cn/20181219162146245.png" width = "250" height = "270"></div>
			
 
				+
			
 
				+# LICENSE
			
 
				+[GNU General Public License v3.0](https://github.com/Datawhale18/pumpkin-book/blob/master/LICENSE)
			
--- a/plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx
+++ b/plugin/chrome-extensions/MathJax-Plugin-for-Github_v0.2.4.crx