Parcourir la source

精简chapter3

Sm1les il y a 5 ans
Parent
commit
cd7e237383
2 fichiers modifiés avec 6 ajouts et 145 suppressions
  1. 5 2
      docs/chapter2/chapter2.md
  2. 1 143
      docs/chapter3/chapter3.md

+ 5 - 2
docs/chapter2/chapter2.md

@@ -90,9 +90,12 @@ $$2\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y\right)\left(y-y_{D}\right
 ## 附录
 ### ①二项分布参数$p$的检验<sup>[1]</sup>
 设某事件发生的概率为$p$,$p$未知,作$m$次独立试验,每次观察该事件是否发生,以$X$记该事件发生的次数,则$X$服从二项分布$B(m,p)$,现根据$X$检验如下假设:
-$$H_0:p\leq p_0 \\ H_1:p > p_0$$
+$$\begin{aligned}
+H_0:p\leq p_0\\
+H_1:p > p_0
+\end{aligned}$$
 由二项分布本身的特性可知:$p$越小,$X$取到较小值的概率越大。因此,对于上述假设,一个直观上合理的检验为
-$$\varphi:当X\leq C时接受H_0,否则就拒绝H_0$$
+$$\varphi:\text{}X\leq C\text{时接受}H_0,\text{否则就拒绝}H_0$$
 其中,$C\in N$表示事件最大发生次数。此检验对应的功效函数为
 $$\begin{aligned}
 \beta_{\varphi}(p)&=P(X>C)\\

+ 1 - 143
docs/chapter3/chapter3.md

@@ -1,22 +1,3 @@
-## 3.1
-$$f(\boldsymbol{x})=w_1x_1+w_2x_2+...+w_dx_d+b$$
-[解析]:略
-
-## 3.2
-$$f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
-[解析]:略
-
-## 3.3
-$$f(x_i)=wx_i+b,使得f(x_i)\simeq y_i$$
-[解析]:略
-
-## 3.4
-$$\begin{aligned}
-(w^*,b^*)&=\underset{(w,b)}{\arg\min}\sum_{i=1}^{m}(f(x_i)-y_i)^2 \\
-&=\underset{(w,b)}{\arg\min}\sum_{i=1}^{m}(y_i-wx_i-b)^2 \\
-\end{aligned}$$
-[解析]:略
-
 ## 3.5
 $$\cfrac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right)$$
 [推导]:已知$E_{(w, b)}=\sum\limits_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}$,所以
@@ -69,14 +50,6 @@ w & = \cfrac{\sum_{i=1}^{m}(y_ix_i-y_i\bar{x}-x_i\bar{y}+\bar{x}\bar{y})}{\sum_{
 若令$\boldsymbol{x}=(x_1,x_2,...,x_m)^T$,$\boldsymbol{x}_{d}=(x_1-\bar{x},x_2-\bar{x},...,x_m-\bar{x})^T$为去均值后的$\boldsymbol{x}$,$\boldsymbol{y}=(y_1,y_2,...,y_m)^T$,$\boldsymbol{y}_{d}=(y_1-\bar{y},y_2-\bar{y},...,y_m-\bar{y})^T$为去均值后的$\boldsymbol{y}$,其中$\boldsymbol{x}$、$\boldsymbol{x}_{d}$、$\boldsymbol{y}$、$\boldsymbol{y}_{d}$均为m行1列的列向量,代入上式可得
 $$w=\cfrac{\boldsymbol{x}_{d}^T\boldsymbol{y}_{d}}{\boldsymbol{x}_d^T\boldsymbol{x}_{d}}$$
 
-## 3.8
-$$b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)$$
-[解析]:略
-
-## 3.9
-$$\hat{\boldsymbol{w}}^*=\underset{\hat{\boldsymbol{w}}}{\arg\min}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})$$
-[解析]:略
-
 ## 3.10
 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$$
 [推导]:将$E_{\hat{\boldsymbol w}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})$展开可得
@@ -87,70 +60,6 @@ $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= \cfrac
 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= 0-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+(\mathbf{X}^{\mathrm{T}}\mathbf{X}+\mathbf{X}^{\mathrm{T}}\mathbf{X})\hat{\boldsymbol w}$$
 $$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$$
 
-## 3.11
-$$\hat{\boldsymbol{w}}^*=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$$
-[解析]:略
-
-## 3.12
-$$f(\hat{\boldsymbol{x}}_i)=\hat{\boldsymbol{x}}_i^{\mathrm{T}}(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}$$
-[解析]:略
-
-## 3.13
-$$y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
-[解析]:略
-
-## 3.14
-$$\ln y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
-[解析]:略
-
-## 3.15
-$$y=g^{-1}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)$$
-[解析]:略
-
-## 3.16
-$$y=\left\{\begin{array}{cc}0, & z<0 \\ 0.5, & z=0 \\ 1, & z>0\end{array}\right.$$
-[解析]:略
-
-## 3.17
-$$y=\frac{1}{1+e^{-z}}$$
-[解析]:略
-
-## 3.18
-$$y=\frac{1}{1+e^{-(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)}}$$
-[解析]:略
-
-## 3.19
-$$\ln\frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
-[解析]:略
-
-## 3.20
-$$\frac{y}{1-y}$$
-[解析]:略
-
-## 3.21
-$$\ln\frac{y}{1-y}$$
-[解析]:略
-
-## 3.22
-$$\ln\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b$$
-[解析]:略
-
-## 3.23
-$$p(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}$$
-[解析]:略
-
-## 3.24
-$$p(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}$$
-[解析]:略
-
-## 3.25
-$$\ell (\boldsymbol{w},b)=\sum_{i=1}^{m}\ln p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)$$
-[解析]:略
-
-## 3.26
-$$p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)=y_ip_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})+(1-y_i)p_0(\hat{\boldsymbol x}_i;\boldsymbol{\beta})$$
-[解析]:略
-
 ## 3.27
 $$ \ell(\boldsymbol{\beta})=\sum_{i=1}^{m}(-y_i\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i+\ln(1+e^{\boldsymbol{\beta}^{\mathrm{T}}\hat{\boldsymbol x}_i})) $$
 [推导]:将公式(3.26)代入公式(3.25)可得
@@ -181,14 +90,6 @@ $$\begin{aligned}
 \end{aligned}$$
 显然,此种方式更易推导出公式(3.27)
 
-## 3.28
-$$\boldsymbol{\beta}^*=\underset{\boldsymbol{\beta}}{\arg\min}\ell(\boldsymbol{\beta})$$
-[解析]:略
-
-## 3.29
-$$\boldsymbol{\beta}^{t+1}=\boldsymbol{\beta}^{t}-\left(\frac{\partial^2\ell(\boldsymbol{\beta})}{\partial\boldsymbol{\beta}\partial\boldsymbol{\beta}^{\mathrm{T}}}\right)^{-1}\frac{\partial\ell(\boldsymbol{\beta})}{\partial\boldsymbol{\beta}}$$
-[解析]:略
-
 ## 3.30
 $$\frac{\partial \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}=-\sum_{i=1}^{m}\hat{\boldsymbol x}_i(y_i-p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta}))$$
 [解析]:此式可以进行向量化,令$p_1(\hat{\boldsymbol x}_i;\boldsymbol{\beta})=\hat{y}_i$,代入上式得
@@ -199,10 +100,6 @@ $$\begin{aligned}
 & ={\mathbf{X}^{\mathrm{T}}}(p_1(\mathbf{X};\boldsymbol{\beta})-\boldsymbol{y}) \\
 \end{aligned}$$
 
-## 3.31
-$$\frac{\partial^{2} \ell(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^{\mathrm{T}}}=\sum_{i=1}^{m} \hat{\boldsymbol{x}}_{i} \hat{\boldsymbol{x}}_{i}^{\mathrm{T}} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\left(1-p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)\right)$$
-[解析]:略
-
 ## 3.32
 $$J=\cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}$$
 [推导]:
@@ -214,22 +111,6 @@ $$\begin{aligned}
 	&= \cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}
 \end{aligned}$$
 
-## 3.33
-$$\begin{aligned} \mathbf{S}_{w} &=\mathbf{\Sigma}_{0}+\mathbf{\Sigma}_{1} \\ &=\sum_{\boldsymbol{x} \in X_{0}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{0}\right)^{\mathrm{T}}+\sum_{\boldsymbol{x} \in X_{1}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \end{aligned}$$
-[解析]:略
-
-## 3.34
-$$\mathbf{S}_{b}=(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^{\mathrm{T}}$$
-[解析]:略
-
-## 3.35
-$$J=\frac{\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{b}\boldsymbol{w}}{\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{w}\boldsymbol{w}}$$
-[解析]:略
-
-## 3.36
-$$\begin{array}{cl}\underset{\boldsymbol{w}}{\min} & -\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w} \\ \text { s.t. } & \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}=1\end{array}$$
-[解析]:略
-
 ## 3.37
 $$\mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w$$
 [推导]:由公式(3.36)可得拉格朗日函数为
@@ -245,29 +126,6 @@ $$\cfrac{\partial L(\boldsymbol w,\lambda)}{\partial \boldsymbol w} = -2\mathbf{
 $$-2\mathbf{S}_b\boldsymbol w+2\lambda\mathbf{S}_w\boldsymbol w=0$$
 $$\mathbf{S}_b\boldsymbol w=\lambda\mathbf{S}_w\boldsymbol w$$
 
-## 3.38
-$$\mathbf{S}_b\boldsymbol{w}=\lambda(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$$
-[解析]:略
-
-## 3.39
-$$\boldsymbol{w}=\mathbf{S}_w^{-1}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)$$
-[解析]:略
-
-## 3.40
-$$\begin{aligned}
-\mathbf{S}_t &= \mathbf{S}_b+\mathbf{S}_w \\
-&=\sum_{i=1}^{m}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^{\mathrm{T}}
-\end{aligned}$$
-[解析]:略
-
-## 3.41
-$$\mathbf{S}_w=\sum_{i=1}^{N}\mathbf{S}_{w_i}$$
-[解析]:略
-
-## 3.42
-$$\mathbf{S}_{w_i}=\sum_{\boldsymbol{x}\in X_i}(\boldsymbol{x}-\boldsymbol{\mu}_i)(\boldsymbol{x}-\boldsymbol{\mu}_i)^{\mathrm{T}}$$
-[解析]:略
-
 ## 3.43
 $$\begin{aligned}
 \mathbf{S}_b &= \mathbf{S}_t - \mathbf{S}_w \\
@@ -318,6 +176,6 @@ $$\begin{aligned}
 \end{aligned}$$
 由于$\mathbf{S}_b=\mathbf{S}_b^{\mathrm{T}},\mathbf{S}_w=\mathbf{S}_w^{\mathrm{T}}$,所以
 $$\cfrac{\partial L(\mathbf{W},\lambda)}{\partial \mathbf{W}} = -2\mathbf{S}_b\mathbf{W}+2\lambda\mathbf{S}_w\mathbf{W}$$
-令上式等于\mathbf{0}即可得
+令上式等于$\mathbf{0}$即可得
 $$-2\mathbf{S}_b\mathbf{W}+2\lambda\mathbf{S}_w\mathbf{W}=\mathbf{0}$$
 $$\mathbf{S}_b\mathbf{W}=\lambda\mathbf{S}_w\mathbf{W}$$