Selaa lähdekoodia

将Chapter4/5/6/7用docsify展示

Sm1les 7 vuotta sitten
vanhempi
commit
7423c0fd17
4 muutettua tiedostoa jossa 271 lisäystä ja 0 poistoa
  1. 78 0
      docs/chapter4/chapter4.md
  2. 64 0
      docs/chapter5/chapter5.md
  3. 75 0
      docs/chapter6/chapter6.md
  4. 54 0
      docs/chapter7/chapter7.md

+ 78 - 0
docs/chapter4/chapter4.md

@@ -0,0 +1,78 @@
+## 4.1
+$$Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
+[解析]:熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
+
+假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ,则 $D$ 的信息熵为:
+
+$$
+Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}
+$$
+
+其中,当样本 $D$ 中 $|y|$ 类样本均匀分布时,这时信息熵最大,其值为
+$$
+Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|}
+$$
+此时样本D的纯度越小;
+
+相反,假设样本D中只有一类样本,此时信息熵最小,其值为
+$$
+Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0
+$$
+此时样本的纯度最大。
+
+## 4.2
+$$
+Gain(D,a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent({D^v})
+$$
+[解析]:假定在样本D中有某个**离散特征** $a$ 有 $V$ 个可能的取值 $(a^1,a^2,...,a^V)$,若使用特征 $a$ 来对样本集 $D$ 进行划分,则会产生 $V$ 个分支结点,其中第 $v$ 个分支结点包含了 $D$ 中所有在特征 $a$ 上取值为 $a^v$ 的样本,样本记为 $D^v$,由于根据离散特征a的每个值划分的 $V$ 个分支结点下的样本数量不一致,对于这 $V$ 个分支结点赋予权重 $\frac{|D^v|}{|D|}$,即样本数越多的分支结点的影响越大,特征 $a$ 对样本集 $D$ 进行划分所获得的“信息增益”为
+$$
+Gain(D,a) = Ent(D) - \sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent({D^v})
+$$
+信息增益越大,表示使用特征a来对样本集进行划分所获得的纯度提升越大。
+
+**缺点**:由于在计算信息增益中倾向于特征值越多的特征进行优先划分,这样假设某个特征值的离散值个数与样本集 $D$ 个数相同(假设为样本编号),虽然用样本编号对样本进行划分,样本纯度提升最高,但是并不具有泛化能力。
+
+## 4.3
+$$
+Gain-ratio(D,a)=\frac{Gain(D,a)}{IV(a)}
+$$
+[解析]:基于信息增益的缺点,$C4.5$ 算法不直接使用信息增益,而是使用一种叫增益率的方法来选择最优特征进行划分,对于样本集 $D$ 中的离散特征 $a$ ,增益率为
+$$
+Gain-ratio(D,a)=\frac{Gain(D,a)}{IV(a)} 
+$$
+其中,
+$$
+IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}
+$$
+IV(a) 是特征 a 的熵。
+
+增益率对特征值较少的特征有一定偏好,因此 $C4.5$ **算法选择特征的方法是先从候选特征中选出信息增益高于平均水平的特征,再从这些特征中选择增益率最高的**。
+
+## 4.5
+$$
+\begin{aligned}
+Gini(D) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p_{k'}}\\
+&=1-\sum_{k=1}^{|y|}p_k^2 
+\end{aligned}
+$$
+[推导]:假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$,则 $D$ 的**基尼值**为
+$$
+\begin{split}
+Gini(p) &=\sum_{k=1}^{|y|}\sum_{k\neq{k'}}{p_k}{p_{k'}}\\
+&=\sum_{k=1}^{|y|}{p_k}{(1-p_k)} \\
+&=1-\sum_{k=1}^{|y|}p_k^2 
+\end{split}
+$$
+
+## 4.7 - 4.8
+
+[解析]:样本集 $D$ 中的**连续特征** $a$,假设特征 $a$ 有 $n$ 个不同的取值,对其进行大小排序,记为 $\lbrace{a^1,a^2,...,a^n}\rbrace$,根据特征 $a$ 可得到 $n-1$ 个划分点 $t$,划分点 $t$ 的集合为
+$$
+T_a=\lbrace{\frac{a^i+a^{i+1}}{2}|1\leq{i}\leq{n-1}}\rbrace \tag {4.7}
+$$
+对于取值集合 $ T_a$  中的每个 $t$  值计算将特征 $a$  离散为一个特征值只有两个值,分别是 $\lbrace{a} >t\rbrace$ 和 $\lbrace{a} \leq{t}\rbrace$  的特征,计算新特征的信息增益,找到信息增益最大的 $t$ 值即为该特征的最优划分点。
+$$
+\begin{split}
+Gain(D,a) &= \max\limits_{t \in T_a} \ Gain(D,a) \\
+&= \max\limits_{t \in T_a} \ Ent(D)-\sum_{\lambda \in \{-,+\}} \frac{\left | D_t^{\lambda } \right |}{\left |D  \right |}Ent(D_t^{\lambda }) \end{split} \tag{4.8}
+$$

+ 64 - 0
docs/chapter5/chapter5.md

@@ -0,0 +1,64 @@
+## 5.2
+$$\Delta w_i = \eta(y-\hat{y})x_i$$
+[推导]:此处感知机的模型为:
+$$y=f(\sum_{i} w_i x_i - \theta)$$
+将$\theta$看成哑结点后,模型可化简为:
+$$y=f(\sum_{i} w_i x_i)=f(\boldsymbol w^T \boldsymbol x)$$
+其中$f$为阶跃函数。<br>根据《统计学习方法》§2可知,假设误分类点集合为$M$,$\boldsymbol x_i \in M$为误分类点,$\boldsymbol x_i$的真实标签为$y_i$,模型的预测值为$\hat{y_i}$,对于误分类点$\boldsymbol x_i$来说,此时$\boldsymbol w^T \boldsymbol x_i \gt 0,\hat{y_i}=1,y_i=0$或$\boldsymbol w^T \boldsymbol x_i \lt 0,\hat{y_i}=0,y_i=1$,综合考虑两种情形可得:
+$$(\hat{y_i}-y_i)\boldsymbol w \boldsymbol x_i>0$$
+所以可以推得损失函数为:
+$$L(\boldsymbol w)=\sum_{\boldsymbol x_i \in M} (\hat{y_i}-y_i)\boldsymbol w \boldsymbol x_i$$
+损失函数的梯度为:
+$$\nabla_w L(\boldsymbol w)=\sum_{\boldsymbol x_i \in M} (\hat{y_i}-y_i)\boldsymbol x_i$$
+随机选取一个误分类点$(\boldsymbol x_i,y_i)$,对$\boldsymbol w$进行更新:
+$$\boldsymbol w \leftarrow \boldsymbol w-\eta(\hat{y_i}-y_i)\boldsymbol x_i=\boldsymbol w+\eta(y_i-\hat{y_i})\boldsymbol x_i$$
+显然式5.2为$\boldsymbol w$的第$i$个分量$w_i$的变化情况
+## 5.12
+$$\Delta \theta_j = -\eta g_j$$
+[推导]:因为
+$$\Delta \theta_j = -\eta \cfrac{\partial E_k}{\partial \theta_j}$$
+又
+$$
+\begin{aligned}	
+\cfrac{\partial E_k}{\partial \theta_j} &= \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot\cfrac{\partial \hat{y}_j^k}{\partial \theta_j} \\
+&= (\hat{y}_j^k-y_j^k) \cdot f’(\beta_j-\theta_j) \cdot (-1) \\
+&= -(\hat{y}_j^k-y_j^k)f’(\beta_j-\theta_j) \\
+&= g_j
+\end{aligned}
+$$
+所以
+$$\Delta \theta_j = -\eta \cfrac{\partial E_k}{\partial \theta_j}=-\eta g_j$$
+## 5.13
+$$\Delta v_{ih} = \eta e_h x_i$$
+[推导]:因为
+$$\Delta v_{ih} = -\eta \cfrac{\partial E_k}{\partial v_{ih}}$$
+又
+$$
+\begin{aligned}	
+\cfrac{\partial E_k}{\partial v_{ih}} &= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \alpha_h} \cdot \cfrac{\partial \alpha_h}{\partial v_{ih}} \\
+&= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \alpha_h} \cdot x_i \\ 
+&= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot f’(\alpha_h-\gamma_h) \cdot x_i \\
+&= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot w_{hj} \cdot f’(\alpha_h-\gamma_h) \cdot x_i \\
+&= \sum_{j=1}^{l} (-g_j) \cdot w_{hj} \cdot f’(\alpha_h-\gamma_h) \cdot x_i \\
+&= -f’(\alpha_h-\gamma_h) \cdot \sum_{j=1}^{l} g_j \cdot w_{hj}  \cdot x_i\\
+&= -b_h(1-b_h) \cdot \sum_{j=1}^{l} g_j \cdot w_{hj}  \cdot x_i \\
+&= -e_h \cdot x_i
+\end{aligned}
+$$
+所以
+$$\Delta v_{ih} = -\eta \cdot -e_h \cdot x_i=\eta e_h x_i$$
+## 5.14
+$$\Delta \gamma_h= -\eta e_h$$
+[推导]:因为
+$$\Delta \gamma_h = -\eta \cfrac{\partial E_k}{\partial \gamma_h}$$
+又
+$$
+\begin{aligned}	
+\cfrac{\partial E_k}{\partial \gamma_h} &= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot \cfrac{\partial b_h}{\partial \gamma_h} \\
+&= \sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \cfrac{\partial \beta_j}{\partial b_h} \cdot f’(\alpha_h-\gamma_h) \cdot (-1) \\
+&= -\sum_{j=1}^{l} \cfrac{\partial E_k}{\partial \hat{y}_j^k} \cdot \cfrac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot w_{hj} \cdot f’(\alpha_h-\gamma_h)\\
+&=e_h
+\end{aligned}
+$$
+所以
+$$\Delta \gamma_h= -\eta e_h$$

+ 75 - 0
docs/chapter6/chapter6.md

@@ -0,0 +1,75 @@
+## 6.9-6.10
+$$\begin{aligned}
+w &= \sum_{i=1}^m\alpha_iy_i\boldsymbol{x}_i \\
+0 &=\sum_{i=1}^m\alpha_iy_i
+\end{aligned}​$$
+[推导]:式(6.8)可作如下展开:
+$$\begin{aligned}
+L(\boldsymbol{w},b,\boldsymbol{\alpha}) &= \frac{1}{2}||\boldsymbol{w}||^2+\sum_{i=1}^m\alpha_i(1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)) \\
+& =  \frac{1}{2}||\boldsymbol{w}||^2+\sum_{i=1}^m(\alpha_i-\alpha_iy_i \boldsymbol{w}^T\boldsymbol{x}_i-\alpha_iy_ib)\\
+& =\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum_{i=1}^m\alpha_i -\sum_{i=1}^m\alpha_iy_i\boldsymbol{w}^T\boldsymbol{x}_i-\sum_{i=1}^m\alpha_iy_ib
+\end{aligned}​$$
+对$\boldsymbol{w}$和$b$分别求偏导数​并令其等于0:
+
+$$\frac {\partial L}{\partial \boldsymbol{w}}=\frac{1}{2}\times2\times\boldsymbol{w} + 0 - \sum_{i=1}^{m}\alpha_iy_i \boldsymbol{x}_i-0= 0 \Longrightarrow \boldsymbol{w}=\sum_{i=1}^{m}\alpha_iy_i \boldsymbol{x}_i$$
+
+$$\frac {\partial L}{\partial b}=0+0-0-\sum_{i=1}^{m}\alpha_iy_i=0  \Longrightarrow  \sum_{i=1}^{m}\alpha_iy_i=0$$		
+
+## 6.11
+$$\begin{aligned}
+\max_{\boldsymbol{\alpha}} & \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i = 1}^m\sum_{j=1}^m\alpha_i \alpha_j y_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j \\
+s.t. & \sum_{i=1}^m \alpha_i y_i =0 \\ 
+& \alpha_i \geq 0 \quad i=1,2,\dots ,m
+\end{aligned}$$  
+[推导]:将式 (6.9)代人 (6.8) ,即可将$L(\boldsymbol{w},b,\boldsymbol{\alpha})$ 中的 $\boldsymbol{w}$ 和 $b$ 消去,再考虑式 (6.10) 的约束,就得到式 (6.6) 的对偶问题:
+$$\begin{aligned}
+\min_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha})  &=\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum_{i=1}^m\alpha_i -\sum_{i=1}^m\alpha_iy_i\boldsymbol{w}^T\boldsymbol{x}_i-\sum_{i=1}^m\alpha_iy_ib \\
+&=\frac {1}{2}\boldsymbol{w}^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i-\boldsymbol{w}^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i+\sum _{i=1}^m\alpha_
+i -b\sum _{i=1}^m\alpha_iy_i \\
+& = -\frac {1}{2}\boldsymbol{w}^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i+\sum _{i=1}^m\alpha_i -b\sum _{i=1}^m\alpha_iy_i
+\end{aligned}$$
+又$\sum\limits_{i=1}^{m}\alpha_iy_i=0$,所以上式最后一项可化为0,于是得:
+$$\begin{aligned}
+\min_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) &= -\frac {1}{2}\boldsymbol{w}^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i+\sum _{i=1}^m\alpha_i \\
+&=-\frac {1}{2}(\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i)^T(\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i)+\sum _{i=1}^m\alpha_i \\
+&=-\frac {1}{2}\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i+\sum _{i=1}^m\alpha_i \\
+&=\sum _{i=1}^m\alpha_i-\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j
+\end{aligned}$$
+所以
+$$\max_{\boldsymbol{\alpha}}\min_{\boldsymbol{w},b} L(\boldsymbol{w},b,\boldsymbol{\alpha}) =\max_{\boldsymbol{\alpha}} \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i = 1}^m\sum_{j=1}^m\alpha_i \alpha_j y_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j $$
+## 6.39
+$$ C=\alpha_i +\mu_i $$
+[推导]:对式(6.36)关于$\xi_i$求偏导并令其等于0可得:
+​                                                     
+$$\frac{\partial L}{\partial \xi_i}=0+C \times 1 - \alpha_i \times 1-\mu_i
+\times 1 =0\Longrightarrow C=\alpha_i +\mu_i$$
+
+## 6.40
+$$\begin{aligned}
+\max_{\boldsymbol{\alpha}}&\sum _{i=1}^m\alpha_i-\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j \\
+ s.t. &\sum_{i=1}^m \alpha_i y_i=0 \\ 
+ &  0 \leq\alpha_i \leq C \quad i=1,2,\dots ,m
+ \end{aligned}$$
+将式6.37-6.39代入6.36可以得到6.35的对偶问题:
+$$\begin{aligned}
+ \min_{\boldsymbol{w},b,\boldsymbol{\xi}}L(\boldsymbol{w},b,\boldsymbol{\alpha},\boldsymbol{\xi},\boldsymbol{\mu}) &= \frac{1}{2}||\boldsymbol{w}||^2+C\sum_{i=1}^m \xi_i+\sum_{i=1}^m \alpha_i(1-\xi_i-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b))-\sum_{i=1}^m\mu_i \xi_i  \\
+&=\frac{1}{2}||\boldsymbol{w}||^2+\sum_{i=1}^m\alpha_i(1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b))+C\sum_{i=1}^m \xi_i-\sum_{i=1}^m \alpha_i \xi_i-\sum_{i=1}^m\mu_i \xi_i \\
+& = -\frac {1}{2}\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i+\sum _{i=1}^m\alpha_i +\sum_{i=1}^m C\xi_i-\sum_{i=1}^m \alpha_i \xi_i-\sum_{i=1}^m\mu_i \xi_i \\
+&  = -\frac {1}{2}\sum_{i=1}^{m}\alpha_iy_i\boldsymbol{x}_i^T\sum _{i=1}^m\alpha_iy_i\boldsymbol{x}_i+\sum _{i=1}^m\alpha_i +\sum_{i=1}^m (C-\alpha_i-\mu_i)\xi_i \\
+&=\sum _{i=1}^m\alpha_i-\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j
+\end{aligned}$$  
+所以
+$$\begin{aligned}
+\max_{\boldsymbol{\alpha},\boldsymbol{\mu}} \min_{\boldsymbol{w},b,\boldsymbol{\xi}}L(\boldsymbol{w},b,\boldsymbol{\alpha},\boldsymbol{\xi},\boldsymbol{\mu})&=\max_{\boldsymbol{\alpha},\boldsymbol{\mu}}\sum _{i=1}^m\alpha_i-\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j \\
+&=\max_{\boldsymbol{\alpha}}\sum _{i=1}^m\alpha_i-\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j 
+\end{aligned}$$
+又
+$$\begin{aligned}
+\alpha_i &\geq 0 \\
+\mu_i &\geq 0 \\
+C &= \alpha_i+\mu_i
+\end{aligned}$$
+消去$\mu_i$可得等价约束条件为:
+$$0 \leq\alpha_i \leq C \quad i=1,2,\dots ,m$$
+
+

+ 54 - 0
docs/chapter7/chapter7.md

@@ -0,0 +1,54 @@
+## 7.5
+$$R(c|\boldsymbol x)=1−P(c|\boldsymbol x)$$
+[推导]:由式7.1和式7.4可得:
+$$R(c_i|\boldsymbol x)=1*P(c_1|\boldsymbol x)+1*P(c_2|\boldsymbol x)+...+0*P(c_i|\boldsymbol x)+...+1*P(c_N|\boldsymbol x)$$
+又$\sum_{j=1}^{N}P(c_j|\boldsymbol x)=1$,则:
+$$R(c_i|\boldsymbol x)=1-P(c_i|\boldsymbol x)$$
+此即为式7.5
+## 7.8
+$$P(c|\boldsymbol x)=\cfrac{P(c)P(\boldsymbol x|c)}{P(\boldsymbol x)}$$
+[解析]:最小化误差,也就是最大化P(c|x),但由于P(c|x)属于后验概率无法直接计算,由贝叶斯公式可计算出:
+$$P(c|\boldsymbol x)=\cfrac{P(c)P(\boldsymbol x|c)}{P(\boldsymbol x)}$$
+$P(\boldsymbol x)$可以省略,因为我们比较的时候$P(\boldsymbol x)$一定是相同的,所以我们就是用历史数据计算出$P(c)$和$P(\boldsymbol x|c)$。
+1. $P(c)$根据大数定律,当样本量到了一定程度且服从独立同分布,c的出现的频率就是c的概率。
+2. $P(\boldsymbol x|c)$,因为$\boldsymbol x$在这里不对单一元素是个矩阵,涉及n个元素,不太好直接统计分类为c时,$\boldsymbol x$的概率,所以我们根据假设独立同分布,对每个$\boldsymbol x$的每个特征分别求概率
+$$P(\boldsymbol x|c)=P(x_1|c)*P(x_2|c)*P(x_3|c)...*P(x_n|c)$$
+这个式子就可以很方便的通过历史数据去统计了,比如特征n,就是在分类为c时特征n出现的概率,在数据集中应该是用1显示。
+但是当某一概率为0时会导致整个式子概率为0,所以采用拉普拉斯修正
+
+当样本属性独依赖时,也就是除了c多加一个依赖条件,式子变成了
+$$∏_{i=1}^n P(x_i|c,p_i)$$
+$p_i$是$x_i$所依赖的属性
+
+当样本属性相关性未知时,我们采用贝叶斯网的算法,对相关性进行评估,以找出一个最佳的分类模型。
+
+当遇到不完整的训练样本时,可通过使用EM算法对模型参数进行评估来解决。
+
+## 附录
+#### sklearn调包
+
+```python
+ import numpy as np
+ X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
+ Y = np.array([1, 1, 1, 2, 2, 2])
+from sklearn.naive_bayes import GaussianNB
+ clf = GaussianNB()
+clf.fit(X, Y)
+GaussianNB(priors=None, var_smoothing=1e-09)
+print(clf.predict([[-0.8, -1]]))
+```
+#### 参数:	
+priors : array-like, shape (n_classes,)
+Prior probabilities of the classes. If specified the priors are not adjusted according to the data.
+
+var_smoothing : float, optional (default=1e-9)
+Portion of the largest variance of all features that is added to variances for calculation stability.
+
+#### 贝叶斯应用
+
+1. 中文分词
+分词后,得分的假设是基于两词之间是独立的,后词的出现与前词无关
+2. 统计机器翻译
+统计机器翻译因为其简单,无需手动添加规则,迅速成为了机器翻译的事实标准。
+3. 贝叶斯图像识别
+首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念,然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。