6 gadi atpakaļ · fdee271759
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -1,26 +1,40 @@
 
				 ## 4.1
			
 
				-$$Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
			
 
				-[解析]：
			
 
				-
			
 
				-熵是度量样本集合纯度最常用的一种指标，代表一个系统中蕴含多少信息量，信息量越大表明一个系统不确定性就越大，就存在越多的可能性。
			
 
				-
			
 
				-假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k =1,2,...,|y|)$ ，则 $D$ 的信息熵为：
			
 
				-
			
 
				-$$
			
 
				-Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k}
			
 
				-$$
			
 
				-
			
 
				-其中，当样本 $D$ 中 $|y|$ 类样本均匀分布时，这时信息熵最大，其值为
			
 
				-$$
			
 
				-Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|}
			
 
				-$$
			
 
				-此时样本D的纯度越小；
			
 
				-
			
 
				-相反，假设样本D中只有一类样本，此时信息熵最小，其值为
			
 
				-$$
			
 
				-Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = -1log_21-0log_20-...-0log_20 = 0
			
 
				-$$
			
 
				-此时样本的纯度最大。
			
 
				+$$\operatorname{Ent}(D)=-\sum_{k=1}^{|y|}p_klog_{2}{p_k}$$
			
 
				+[解析]：求信息熵最值的推导：<br>
			
 
				+已知集合D的信息熵的定义为
			
 
				+$$\operatorname{Ent}(D)=-\sum_{k=1}^{ | \mathcal{Y}|} p_{k} \log _{2} p_{k}$$
			
 
				+其中，$| \mathcal{Y}|$表示样本类别总数，$p_k$表示第k类样本所占的比例，且$0 \leq p_k \leq 1,\sum_{k=1}^{n}p_k=1$。
			
 
				+若令$| \mathcal{Y}|=n,p_k=x_k$，那么信息熵$\operatorname{Ent}(D)$就可以看作一个$n$元实值函数，也即
			
 
				+$$\operatorname{Ent}(D)=f(x_1,...,x_n)=-\sum_{k=1}^{n} x_{k} \log _{2} x_{k} $$
			
 
				+其中，$0 \leq x_k \leq 1,\sum_{k=1}^{n}x_k=1$，于是求信息熵最值的问题转化为了多元函数求最值的问题。对于这种带约束的多元函数求最值问题，常用拉格朗日乘子法，根据拉格朗日乘子法可得拉格朗日函数为
			
 
				+$$L(x_1,...,x_n,\lambda)=-\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda(\sum_{k=1}^{n}x_k-1)$$
			
 
				+其中，$\lambda$为拉格朗日乘子。根据拉格朗日乘子法可知，列出拉格朗日函数以后，下一步就是求拉格朗日函数$L(x_1,...,x_n,\lambda)$的极值点，也就是对$L(x_1,...,x_n,\lambda)$分别关于$x_1,...,x_n,\lambda$求一阶偏导数，并令偏导数等于0解出$x_1,...,x_n,\lambda$，具体计算过程如下：
			
 
				+$$\begin{aligned}
			
 
				+\cfrac{\partial L(x_1,...,x_n,\lambda)}{\partial x_1}&=\cfrac{\partial }{\partial x_1}\left[-\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda(\sum_{k=1}^{n}x_k-1)\right]=0\\
			
 
				+&=-\log _{2} x_{1}-x_1\cdot \cfrac{1}{x_1\ln2}+\lambda=0 \\
			
 
				+&=-\log _{2} x_{1}-\cfrac{1}{\ln2}+\lambda=0 \\
			
 
				+&\Rightarrow \lambda=\log _{2} x_{1}+\cfrac{1}{\ln2}
			
 
				+\end{aligned}$$
			
 
				+同理可推得
			
 
				+$$\lambda=\log _{2} x_{1}+\cfrac{1}{\ln2}=\log _{2} x_{2}+\cfrac{1}{\ln2}=...=\log _{2} x_{n}+\cfrac{1}{\ln2}$$
			
 
				+那么
			
 
				+$$x_1=x_2=...=x_n$$
			
 
				+由于$x_1,...,x_n$满足约束$\sum_{k=1}^{n}x_k=1$，所以可以解得唯一解
			
 
				+$$x_1=x_2=...=x_n=\cfrac{1}{n}$$
			
 
				+又因为$x_k$的取值范围为$0 \leq x_k \leq 1$，显然$0 \leq\cfrac{1}{n}\leq 1$，所以$x_1=x_2=...=x_n=\cfrac{1}{n}$是有效解。根据拉格朗日乘子法可知，当$x_1=x_2=...=x_n=\cfrac{1}{n}$是唯一解的时候，那么$x_1=x_2=...=x_n=\cfrac{1}{n}$必然是$f(x_1,...,x_n)$的最值点，至于是最大值点还是最小值点需要做个简单的验证。分别取$x_1=x_2=...=x_n=\cfrac{1}{n}$和$x_1=1,x_2=x_3=...=x_n=0$，代入$f(x_1,...,x_n)$中可得
			
 
				+$$f(\cfrac{1}{n},...,\cfrac{1}{n})=-\sum_{k=1}^{n} \cfrac{1}{n} \log _{2} \cfrac{1}{n}=-n\cdot\cfrac{1}{n} \log _{2} \cfrac{1}{n}=\log _{2} n$$
			
 
				+$$f(1,0,...,0)=-1\cdot \log _{2} 1-0\cdot \log _{2} 0...-0\cdot \log _{2} 0=0$$
			
 
				+显然$\log _{2} n \geq 0$，所以$x_1=x_2=...=x_n=\cfrac{1}{n}$一定是$f(x_1,...,x_n)$的最大值点，且最大值为$\log _{2} n$。下面考虑求$f(x_1,...,x_n)$的最小值，如果不考虑约束$\sum_{k=1}^{n}x_k=1$，仅考虑$0 \leq x_k \leq 1$的话，$f(x_1,...,x_n)$可以看做是$n$个互不相关的一元函数的加和，也即
			
 
				+$$f(x_1,...,x_n)=\sum_{k=1}^{n} g(x_k) $$
			
 
				+其中，$g(x_k)=-x_{k} \log _{2} x_{k},0 \leq x_k \leq 1$。那么当$g(x_1),g(x_2),...,g(x_n)$分别取到其最小值时，$f(x_1,...,x_n)$也就取到了最小值。所以接下来考虑分别求$g(x_1),g(x_2),...,g(x_n)$各自的最小值，由于$g(x_1),g(x_2),...,g(x_n)$的定义域和函数表达式均相同，所以只需求出$g(x_1)$的最小值也就求出了$g(x_2),...,g(x_n)$的最小值。下面考虑求$g(x_1)$的最小值，首先对$g(x_1)$关于$x_1$求一阶和二阶导数
			
 
				+$$g^{\prime}(x_1)=\cfrac{d(-x_{1} \log _{2} x_{1})}{d x_1}=-\log _{2} x_{1}-x_1\cdot \cfrac{1}{x_1\ln2}=-\log _{2} x_{1}-\cfrac{1}{\ln2}$$
			
 
				+$$g^{\prime\prime}(x_1)=\cfrac{d\left(-\log _{2} x_{1}-\cfrac{1}{\ln2}\right)}{d x_1}=-\log _{2} x_{1}-x_1\cdot \cfrac{1}{x_1\ln2}=-\cfrac{1}{x_{1}\ln2}$$
			
 
				+显然，当$0 \leq x_k \leq 1$时$g^{\prime\prime}(x_1)=-\cfrac{1}{x_{1}\ln2}$恒小于0，所以$g(x_1)$是一个在其定义域范围内开头向下的凹函数，那么其最小值必然在边界取，于是分别取$x_1=0$和$x_1=1$，代入$g(x_1)$可得
			
 
				+$$g(0)=-0\log _{2} 0=0$$
			
 
				+$$g(1)=-1\log _{2} 1=0$$
			
 
				+所以，$g(x_1)$的最小值为0，同理可得$g(x_2),...,g(x_n)$的最小值也为0，那么$f(x_1,...,x_n)$的最小值此时也为0。但是，此时是不考虑约束$\sum_{k=1}^{n}x_k=1$，仅考虑$0 \leq x_k \leq 1$时取到的最小值，若考虑约束$\sum_{k=1}^{n}x_k=1$的话，那么$f(x_1,...,x_n)$的最小值一定大于等于0。如果令某个$x_k=1$，那么根据约束$\sum_{k=1}^{n}x_k=1$可知$x_1=x_2=...=x_{k-1}=x_{k+1}=...=x_n=0$，将其代入$f(x_1,...,x_n)$可得
			
 
				+$$f(0,0,...,0,1,0,...,0)=-0 \log _{2}0-0 \log _{2}0...-0 \log _{2}0-1 \log _{2}1-0 \log _{2}0...-0 \log _{2}0=0 $$
			
 
				+所以$x_k=1,x_1=x_2=...=x_{k-1}=x_{k+1}=...=x_n=0$一定是$f(x_1,...,x_n)$在满足约束$\sum_{k=1}^{n}x_k=1$和$0 \leq x_k \leq 1$的条件下的最小值点，其最小值为0。
			
 
				 
			
 
				 ## 4.2
			
 
				 $$
			
--- a/docs/chapter8/chapter8.md
+++ b/docs/chapter8/chapter8.md
@@ -26,10 +26,10 @@ $$
 
				 $$
			
 
				 该分类器的权重只与分类器的错误率负相关(即错误率越大，权重越低)
			
 
				 
			
 
				-(1)先考虑指数损失函数$e^{-f(x) H(x)}$的含义：$f$为真实函数，对于样本$x$来说，$f(\boldsymbol{x}) \in\{-1,+1\}$只能取和两个值，而$H(\boldsymbol{x})$是一个实数；
			
 
				+1. 先考虑指数损失函数$e^{-f(x) H(x)}$的含义：$f$为真实函数，对于样本$x$来说，$f(\boldsymbol{x}) \in\{+1,-1\}$只能取+1和-1，而$H(\boldsymbol{x})$是一个实数；
			
 
				 当$H(\boldsymbol{x})$的符号与$f(x)$一致时，$f(\boldsymbol{x}) H(\boldsymbol{x})>0$，因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{-|H(\boldsymbol{x})|}<1$，且$|H(\boldsymbol{x})|$越大指数损失函数$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}$越小（这很合理：此时$|H(\boldsymbol{x})|$越大意味着分类器本身对预测结果的信心越大，损失应该越小；若$|H(\boldsymbol{x})|$在零附近，虽然预测正确，但表示分类器本身对预测结果信心很小，损失应该较大）；
			
 
				-当$H(\boldsymbol{x})$的符号与$f(\boldsymbol{x})$不一致时，$f(\boldsymbol{x}) H(\boldsymbol{x})<0$，因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{|H(\boldsymbol{x})|}>1$，且$| H(\boldsymbol{x}) |$越大指数损失函数越大（这很合理：此时$| H(\boldsymbol{x}) |$越大意味着分类器本身对预测结果的信心越大，但预测结果是错的，因此损失应该越大；若$| H(\boldsymbol{x}) |$在零附近，虽然预测错误，但表示分类器本身对预测结果信心很小，虽然错了，损失应该较小）；
			
 
				-(2)符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的含义：$\mathcal{D}$为概率分布，可简单理解为在数据集$D$中进行一次随机抽样，每个样本被取到的概率；$\mathbb{E}[\cdot]$为经典的期望，则综合起来$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$表示在概率分布$\mathcal{D}$上的期望，可简单理解为对数据集$D$以概率$\mathcal{D}$进行加权后的期望。
			
 
				+当$H(\boldsymbol{x})$的符号与$f(\boldsymbol{x})$不一致时，$f(\boldsymbol{x}) H(\boldsymbol{x})<0$，因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{|H(\boldsymbol{x})|}>1$，且$| H(\boldsymbol{x}) |$越大指数损失函数越大（这很合理：此时$| H(\boldsymbol{x}) |$越大意味着分类器本身对预测结果的信心越大，但预测结果是错的，因此损失应该越大；若$| H(\boldsymbol{x}) |$在零附近，虽然预测错误，但表示分类器本身对预测结果信心很小，虽然错了，损失应该较小）；<br>
			
 
				+2. 符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的含义：$\mathcal{D}$为概率分布，可简单理解为在数据集$D$中进行一次随机抽样，每个样本被取到的概率；$\mathbb{E}[\cdot]$为经典的期望，则综合起来$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$表示在概率分布$\mathcal{D}$上的期望，可简单理解为对数据集$D$以概率$\mathcal{D}$进行加权后的期望。
			
 
				 $$
			
 
				 \begin{aligned}
			
 
				 \ell_{\mathrm{exp}}(H | \mathcal{D})=&\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right]