il y a 5 ans · cd7e237383
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -90,9 +90,12 @@ $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right
 
				 ## 附录
			
 
				 ### ①二项分布参数$p$的检验<sup>[1]</sup>
			
 
				 设某事件发生的概率为$p$，$p$未知，作$m$次独立试验，每次观察该事件是否发生，以$X$记该事件发生的次数，则$X$服从二项分布$B(m,p)$，现根据$X$检验如下假设：
			
 
				-$$H_0:p\leq p_0 \\ H_1:p > p_0$$
			
 
				+$$\begin{aligned}
			
 
				+H_0:p\leq p_0\\
			
 
				+H_1:p > p_0
			
 
				+\end{aligned}$$
			
 
				 由二项分布本身的特性可知：$p$越小，$X$取到较小值的概率越大。因此，对于上述假设，一个直观上合理的检验为
			
 
				-$$\varphi:当X\leq C时接受H_0,否则就拒绝H_0$$
			
 
				+$$\varphi:\text{当}X\leq C\text{时接受}H_0,\text{否则就拒绝}H_0$$
			
 
				 其中，$C\in N$表示事件最大发生次数。此检验对应的功效函数为
			
 
				 $$\begin{aligned}
			
 
				 \beta_{\varphi}(p)&=P(X>C)\\
			
--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -1,22 +1,3 @@
 
				-## 3.1
			
 
				-$$f(\boldsymbol{x})=w_1x_1+w_2x_2+...+w_dx_d+b$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.2
			
 
				-$$f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.3
			
 
				-$$f(x_i)=wx_i+b,使得f(x_i)\simeq y_i$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.4
			
 
				-$$\begin{aligned}
			
 
				-(w^*,b^*)&=\underset{(w,b)}{\arg\min}\sum_{i=1}^{m}(f(x_i)-y_i)^2 \\
			
 
				-&=\underset{(w,b)}{\arg\min}\sum_{i=1}^{m}(y_i-wx_i-b)^2 \\
			
 
				-\end{aligned}$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.5
			
 
				 $$\cfrac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)$$
			
 
				 [推导]：已知$E_{(w, b)}=\sum\limits_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}$，所以
			
@@ -69,14 +50,6 @@ w & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x}-x_i\bar{y}+\bar{x}\bar{y})}{\sum_{
 
				 若令$\boldsymbol{x}=(x_1,x_2,...,x_m)^T$，$\boldsymbol{x}_{d}=(x_1-\bar{x},x_2-\bar{x},...,x_m-\bar{x})^T$为去均值后的$\boldsymbol{x}$，$\boldsymbol{y}=(y_1,y_2,...,y_m)^T$，$\boldsymbol{y}_{d}=(y_1-\bar{y},y_2-\bar{y},...,y_m-\bar{y})^T$为去均值后的$\boldsymbol{y}$，其中$\boldsymbol{x}$、$\boldsymbol{x}_{d}$、$\boldsymbol{y}$、$\boldsymbol{y}_{d}$均为m行1列的列向量，代入上式可得
			
 
				 $$w=\cfrac{\boldsymbol{x}_{d}^T\boldsymbol{y}_{d}}{\boldsymbol{x}_d^T\boldsymbol{x}_{d}}$$
			
 
				 
			
 
				-## 3.8
			
 
				-$$b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.9
			
 
				-$$\hat{\boldsymbol{w}}^*=\underset{\hat{\boldsymbol{w}}}{\arg\min}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.10
			
 
				 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$$
			
 
				 [推导]：将$E_{\hat{\boldsymbol w}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})$展开可得
			
@@ -87,70 +60,6 @@ $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= \cfrac
 
				 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= 0-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+(\mathbf{X}^{\mathrm{T}}\mathbf{X}+\mathbf{X}^{\mathrm{T}}\mathbf{X})\hat{\boldsymbol w}$$
			
 
				 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$$
			
 
				 
			
 
				-## 3.11
			
 
				-$$\hat{\boldsymbol{w}}^*=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.12
			
 
				-$$f(\hat{\boldsymbol{x}}_i)=\hat{\boldsymbol{x}}_i^{\mathrm{T}}(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.13
			
 
				-$$y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.14
			
 
				-$$\ln y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.15
			
 
				-$$y=g^{-1}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.16
			
 
				-$$y=\left\{\begin{array}{cc}0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0\end{array}\right.$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.17
			
 
				-$$y=\frac{1}{1+e^{-z}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.18
			
 
				-$$y=\frac{1}{1+e^{-(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.19
			
 
				-$$\ln\frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.20
			
 
				-$$\frac{y}{1-y}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.21
			
 
				-$$\ln\frac{y}{1-y}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.22
			
 
				-$$\ln\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.23
			
 
				-$$p(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.24
			
 
				-$$p(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.25
			
 
				-$$\ell (\boldsymbol{w},b)=\sum_{i=1}^{m}\ln p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.26
			
 
				-$$p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)=y_ip_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})+(1-y_i)p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.27
			
 
				 $$ \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}(-y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i+\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})) $$
			
 
				 [推导]：将公式(3.26)代入公式(3.25)可得
			
@@ -181,14 +90,6 @@ $$\begin{aligned}
 
				 \end{aligned}$$
			
 
				 显然，此种方式更易推导出公式(3.27)
			
 
				 
			
 
				-## 3.28
			
 
				-$$\boldsymbol{\beta}^*=\underset{\boldsymbol{\beta}}{\arg\min}\ell(\boldsymbol{\beta})$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.29
			
 
				-$$\boldsymbol{\beta}^{t+1}=\boldsymbol{\beta}^{t}-\left(\frac{\partial^2\ell(\boldsymbol{\beta})}{\partial\boldsymbol{\beta}\partial\boldsymbol{\beta}^{\mathrm{T}}}\right)^{-1}\frac{\partial\ell(\boldsymbol{\beta})}{\partial\boldsymbol{\beta}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.30
			
 
				 $$\frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}=-\sum_{i=1}^{m}\hat{\boldsymbol x}_i(y_i-p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}))$$
			
 
				 [解析]：此式可以进行向量化，令$p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})=\hat{y}_i$，代入上式得
			
@@ -199,10 +100,6 @@ $$\begin{aligned}
 
				 & ={\mathbf{X}^{\mathrm{T}}}(p_1(\mathbf{X};\boldsymbol{\beta})-\boldsymbol{y}) \\
			
 
				 \end{aligned}$$
			
 
				 
			
 
				-## 3.31
			
 
				-$$\frac{\partial^{2} \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^{\mathrm{T}}}=\sum_{i=1}^{m} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\mathrm{T}} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\left(1-p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.32
			
 
				 $$J=\cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}$$
			
 
				 [推导]：
			
@@ -214,22 +111,6 @@ $$\begin{aligned}
 
				 	&= \cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}
			
 
				 \end{aligned}$$
			
 
				 
			
 
				-## 3.33
			
 
				-$$\begin{aligned} \mathbf{S}_{w} &=\mathbf{\Sigma}_{0}+\mathbf{\Sigma}_{1} \\ &=\sum_{\boldsymbol{x} \in X_{0}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}+\sum_{\boldsymbol{x} \in X_{1}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \end{aligned}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.34
			
 
				-$$\mathbf{S}_{b}=(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^{\mathrm{T}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.35
			
 
				-$$J=\frac{\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{b}\boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{w}\boldsymbol{w}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.36
			
 
				-$$\begin{array}{cl}\underset{\boldsymbol{w}}{\min} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \\ \text { s.t. } & \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1\end{array}$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.37
			
 
				 $$\mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w$$
			
 
				 [推导]：由公式(3.36)可得拉格朗日函数为
			
@@ -245,29 +126,6 @@ $$\cfrac{\partial L(\boldsymbol w,\lambda)}{\partial \boldsymbol w} = -2\mathbf{
 
				 $$-2\mathbf{S}_b\boldsymbol w+2\lambda\mathbf{S}_w\boldsymbol w=0$$
			
 
				 $$\mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w$$
			
 
				 
			
 
				-## 3.38
			
 
				-$$\mathbf{S}_b\boldsymbol{w}=\lambda(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.39
			
 
				-$$\boldsymbol{w}=\mathbf{S}_w^{-1}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.40
			
 
				-$$\begin{aligned}
			
 
				-\mathbf{S}_t &= \mathbf{S}_b+\mathbf{S}_w \\
			
 
				-&=\sum_{i=1}^{m}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^{\mathrm{T}}
			
 
				-\end{aligned}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.41
			
 
				-$$\mathbf{S}_w=\sum_{i=1}^{N}\mathbf{S}_{w_i}$$
			
 
				-[解析]：略
			
 
				-
			
 
				-## 3.42
			
 
				-$$\mathbf{S}_{w_i}=\sum_{\boldsymbol{x}\in X_i}(\boldsymbol{x}-\boldsymbol{\mu}_i)(\boldsymbol{x}-\boldsymbol{\mu}_i)^{\mathrm{T}}$$
			
 
				-[解析]：略
			
 
				-
			
 
				 ## 3.43
			
 
				 $$\begin{aligned}
			
 
				 \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\
			
@@ -318,6 +176,6 @@ $$\begin{aligned}
 
				 \end{aligned}$$
			
 
				 由于$\mathbf{S}_b=\mathbf{S}_b^{\mathrm{T}},\mathbf{S}_w=\mathbf{S}_w^{\mathrm{T}}$，所以
			
 
				 $$\cfrac{\partial L(\mathbf{W},\lambda)}{\partial \mathbf{W}} = -2\mathbf{S}_b\mathbf{W}+2\lambda\mathbf{S}_w\mathbf{W}$$
			
 
				-令上式等于\mathbf{0}即可得
			
 
				+令上式等于$\mathbf{0}$即可得
			
 
				 $$-2\mathbf{S}_b\mathbf{W}+2\lambda\mathbf{S}_w\mathbf{W}=\mathbf{0}$$
			
 
				 $$\mathbf{S}_b\mathbf{W}=\lambda\mathbf{S}_w\mathbf{W}$$