5 years ago · cd7e237383
--- a/docs/chapter2/chapter2.md
+++ b/docs/chapter2/chapter2.md
@@ -90,9 +90,12 @@ $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right
 
															 ## 附录
														
 
															 ### ①二项分布参数$p$的检验<sup>[1]</sup>
														
 
															 设某事件发生的概率为$p$，$p$未知，作$m$次独立试验，每次观察该事件是否发生，以$X$记该事件发生的次数，则$X$服从二项分布$B(m,p)$，现根据$X$检验如下假设：
														
 
															-$$H_0:p\leq p_0 \\ H_1:p > p_0$$
														
 
															+$$\begin{aligned}
														
 
															+H_0:p\leq p_0\\
														
 
															+H_1:p > p_0
														
 
															+\end{aligned}$$
														
 
															 由二项分布本身的特性可知：$p$越小，$X$取到较小值的概率越大。因此，对于上述假设，一个直观上合理的检验为
														
 
															-$$\varphi:当X\leq C时接受H_0,否则就拒绝H_0$$
														
 
															+$$\varphi:\text{当}X\leq C\text{时接受}H_0,\text{否则就拒绝}H_0$$
														
 
															 其中，$C\in N$表示事件最大发生次数。此检验对应的功效函数为
														
 
															 $$\begin{aligned}
														
 
															 \beta_{\varphi}(p)&=P(X>C)\\
														
--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -1,22 +1,3 @@
 
															-## 3.1
														
 
															-$$f(\boldsymbol{x})=w_1x_1+w_2x_2+...+w_dx_d+b$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.2
														
 
															-$$f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.3
														
 
															-$$f(x_i)=wx_i+b,使得f(x_i)\simeq y_i$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.4
														
 
															-$$\begin{aligned}
														
 
															-(w^*,b^*)&=\underset{(w,b)}{\arg\min}\sum_{i=1}^{m}(f(x_i)-y_i)^2 \\
														
 
															-&=\underset{(w,b)}{\arg\min}\sum_{i=1}^{m}(y_i-wx_i-b)^2 \\
														
 
															-\end{aligned}$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.5
														
 
															 $$\cfrac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)$$
														
 
															 [推导]：已知$E_{(w, b)}=\sum\limits_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}$，所以
														
@@ -69,14 +50,6 @@ w & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x}-x_i\bar{y}+\bar{x}\bar{y})}{\sum_{
 
															 若令$\boldsymbol{x}=(x_1,x_2,...,x_m)^T$，$\boldsymbol{x}_{d}=(x_1-\bar{x},x_2-\bar{x},...,x_m-\bar{x})^T$为去均值后的$\boldsymbol{x}$，$\boldsymbol{y}=(y_1,y_2,...,y_m)^T$，$\boldsymbol{y}_{d}=(y_1-\bar{y},y_2-\bar{y},...,y_m-\bar{y})^T$为去均值后的$\boldsymbol{y}$，其中$\boldsymbol{x}$、$\boldsymbol{x}_{d}$、$\boldsymbol{y}$、$\boldsymbol{y}_{d}$均为m行1列的列向量，代入上式可得
														
 
															 $$w=\cfrac{\boldsymbol{x}_{d}^T\boldsymbol{y}_{d}}{\boldsymbol{x}_d^T\boldsymbol{x}_{d}}$$
														
 
															-## 3.8
														
 
															-$$b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.9
														
 
															-$$\hat{\boldsymbol{w}}^*=\underset{\hat{\boldsymbol{w}}}{\arg\min}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.10
														
 
															 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$$
														
 
															 [推导]：将$E_{\hat{\boldsymbol w}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})$展开可得
														
@@ -87,70 +60,6 @@ $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= \cfrac
 
															 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= 0-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+(\mathbf{X}^{\mathrm{T}}\mathbf{X}+\mathbf{X}^{\mathrm{T}}\mathbf{X})\hat{\boldsymbol w}$$
														
 
															 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$$
														
 
															-## 3.11
														
 
															-$$\hat{\boldsymbol{w}}^*=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.12
														
 
															-$$f(\hat{\boldsymbol{x}}_i)=\hat{\boldsymbol{x}}_i^{\mathrm{T}}(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.13
														
 
															-$$y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.14
														
 
															-$$\ln y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.15
														
 
															-$$y=g^{-1}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.16
														
 
															-$$y=\left\{\begin{array}{cc}0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0\end{array}\right.$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.17
														
 
															-$$y=\frac{1}{1+e^{-z}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.18
														
 
															-$$y=\frac{1}{1+e^{-(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.19
														
 
															-$$\ln\frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.20
														
 
															-$$\frac{y}{1-y}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.21
														
 
															-$$\ln\frac{y}{1-y}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.22
														
 
															-$$\ln\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.23
														
 
															-$$p(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.24
														
 
															-$$p(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.25
														
 
															-$$\ell (\boldsymbol{w},b)=\sum_{i=1}^{m}\ln p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.26
														
 
															-$$p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)=y_ip_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})+(1-y_i)p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.27
														
 
															 $$ \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}(-y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i+\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})) $$
														
 
															 [推导]：将公式(3.26)代入公式(3.25)可得
														
@@ -181,14 +90,6 @@ $$\begin{aligned}
 
															 \end{aligned}$$
														
 
															 显然，此种方式更易推导出公式(3.27)
														
 
															-## 3.28
														
 
															-$$\boldsymbol{\beta}^*=\underset{\boldsymbol{\beta}}{\arg\min}\ell(\boldsymbol{\beta})$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.29
														
 
															-$$\boldsymbol{\beta}^{t+1}=\boldsymbol{\beta}^{t}-\left(\frac{\partial^2\ell(\boldsymbol{\beta})}{\partial\boldsymbol{\beta}\partial\boldsymbol{\beta}^{\mathrm{T}}}\right)^{-1}\frac{\partial\ell(\boldsymbol{\beta})}{\partial\boldsymbol{\beta}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.30
														
 
															 $$\frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}=-\sum_{i=1}^{m}\hat{\boldsymbol x}_i(y_i-p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}))$$
														
 
															 [解析]：此式可以进行向量化，令$p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})=\hat{y}_i$，代入上式得
														
@@ -199,10 +100,6 @@ $$\begin{aligned}
 
															 & ={\mathbf{X}^{\mathrm{T}}}(p_1(\mathbf{X};\boldsymbol{\beta})-\boldsymbol{y}) \\
														
 
															 \end{aligned}$$
														
 
															-## 3.31
														
 
															-$$\frac{\partial^{2} \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^{\mathrm{T}}}=\sum_{i=1}^{m} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\mathrm{T}} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\left(1-p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.32
														
 
															 $$J=\cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}$$
														
 
															 [推导]：
														
@@ -214,22 +111,6 @@ $$\begin{aligned}
 
															 	&= \cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}
														
 
															 \end{aligned}$$
														
 
															-## 3.33
														
 
															-$$\begin{aligned} \mathbf{S}_{w} &=\mathbf{\Sigma}_{0}+\mathbf{\Sigma}_{1} \\ &=\sum_{\boldsymbol{x} \in X_{0}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}+\sum_{\boldsymbol{x} \in X_{1}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \end{aligned}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.34
														
 
															-$$\mathbf{S}_{b}=(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^{\mathrm{T}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.35
														
 
															-$$J=\frac{\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{b}\boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{w}\boldsymbol{w}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.36
														
 
															-$$\begin{array}{cl}\underset{\boldsymbol{w}}{\min} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \\ \text { s.t. } & \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1\end{array}$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.37
														
 
															 $$\mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w$$
														
 
															 [推导]：由公式(3.36)可得拉格朗日函数为
														
@@ -245,29 +126,6 @@ $$\cfrac{\partial L(\boldsymbol w,\lambda)}{\partial \boldsymbol w} = -2\mathbf{
 
															 $$-2\mathbf{S}_b\boldsymbol w+2\lambda\mathbf{S}_w\boldsymbol w=0$$
														
 
															 $$\mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w$$
														
 
															-## 3.38
														
 
															-$$\mathbf{S}_b\boldsymbol{w}=\lambda(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.39
														
 
															-$$\boldsymbol{w}=\mathbf{S}_w^{-1}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.40
														
 
															-$$\begin{aligned}
														
 
															-\mathbf{S}_t &= \mathbf{S}_b+\mathbf{S}_w \\
														
 
															-&=\sum_{i=1}^{m}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^{\mathrm{T}}
														
 
															-\end{aligned}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.41
														
 
															-$$\mathbf{S}_w=\sum_{i=1}^{N}\mathbf{S}_{w_i}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 3.42
														
 
															-$$\mathbf{S}_{w_i}=\sum_{\boldsymbol{x}\in X_i}(\boldsymbol{x}-\boldsymbol{\mu}_i)(\boldsymbol{x}-\boldsymbol{\mu}_i)^{\mathrm{T}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 3.43
														
 
															 $$\begin{aligned}
														
 
															 \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\
														
@@ -318,6 +176,6 @@ $$\begin{aligned}
 
															 \end{aligned}$$
														
 
															 由于$\mathbf{S}_b=\mathbf{S}_b^{\mathrm{T}},\mathbf{S}_w=\mathbf{S}_w^{\mathrm{T}}$，所以
														
 
															 $$\cfrac{\partial L(\mathbf{W},\lambda)}{\partial \mathbf{W}} = -2\mathbf{S}_b\mathbf{W}+2\lambda\mathbf{S}_w\mathbf{W}$$
														
 
															-令上式等于\mathbf{0}即可得
														
 
															+令上式等于$\mathbf{0}$即可得
														
 
															 $$-2\mathbf{S}_b\mathbf{W}+2\lambda\mathbf{S}_w\mathbf{W}=\mathbf{0}$$
														
 
															 $$\mathbf{S}_b\mathbf{W}=\lambda\mathbf{S}_w\mathbf{W}$$