Parcourir la source

format update

archwalker il y a 5 ans
Parent
commit
f50dfacb3a

+ 11 - 16
docs/chapter11/chapter11.md

@@ -14,14 +14,6 @@ $$
 
 [解析]:此为信息熵的定义式,其中$p_k, k=1, 2, \dots \vert\mathcal{Y}\vert$表示$D$中第$i$类样本所占的比例。可以看出,样本越纯,即$p_k\rightarrow 0$或$p_k\rightarrow 1$时,$\mathrm{Ent}(D)$越小,其最小值为0。此时必有$p_i=1, p_{\backslash i}=0, i=1, 2, \dots, \vert\mathcal{Y}\vert$。
 
-## 11.3
-
-定义式,无需证明
-
-## 11.4
-
-定义式,无需证明
-
 ## 11.5
 
 $$
@@ -46,9 +38,18 @@ $$
 
 [解析]:该式将11.6中的$\mathrm{L}_2$正规化项替换成了$\mathrm{L}_1$正规化项,也叫LASSO回归。关于$\mathrm{L}_2$和$\mathrm{L}_1$两个正规化项的区别,原书图11.2给出了很形象的解释。具体来说,结合$\mathrm{L}_1$范数优化的模型参数分量更偏向于取0,因此更容易取得稀疏解。
 
-## 11.8
+## 11.10
 
-令$\nabla$表示微分算子,对优化目标
+$$
+\begin{aligned}
+\hat{f}(\boldsymbol{x}) & \simeq f\left(\boldsymbol{x}_{k}\right)+\left\langle\nabla f\left(\boldsymbol{x}_{k}\right), \boldsymbol{x}-\boldsymbol{x}_{k}\right\rangle+\frac{L}{2}\left\|\boldsymbol{x}-\boldsymbol{x}_{k}\right\|^{2} \\
+&=\frac{L}{2}\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)\right\|_{2}^{2}+\mathrm{const}
+\end{aligned}
+$$
+
+
+
+[解析]:令$\nabla$表示微分算子,对优化目标
 $$
 \min _{\boldsymbol{x}} f(\boldsymbol{x})+\lambda\|\boldsymbol{x}\|_{1}
 $$
@@ -94,13 +95,7 @@ $$
 $$
 其中$\mathrm{const}=f(x_k)--\frac{1}{2 L} \nabla f\left(x_{k}\right)^{\top} \nabla f\left(x_{k}\right)$
 
-## 11.9
-
-参见 11.8
-
-## 11.10
 
-参见11.8
 
 ## 11.11
 

+ 100 - 28
docs/chapter12/chapter12.md

@@ -1,4 +1,4 @@
-## 12.1
+## \Phi(Z) \leqslant \mathbb{E}_{Z}[\Phi(Z)]+\sqrt{\frac{\ln (1 / \delta)}{2 m}}12.1
 
 $$
 E(h ; \mathcal{D})=P_{\boldsymbol{x} \sim \mathcal{D}}(h(\boldsymbol{x}) \neq y)
@@ -163,19 +163,37 @@ $$
 
 ## 12.15
 
-参见12.5
+$$
+P(\widehat{E}(h)-E(h) \geqslant \epsilon) \leqslant \exp \left(-2 m \epsilon^{2}\right)
+$$
+
+
+
+[解析]:参见12.5
 
 
 
 ## 12.16
 
-参见12.5
+$$
+P(E(h)-\widehat{E}(h) \geqslant \epsilon) \leqslant \exp \left(-2 m \epsilon^{2}\right)
+$$
+
+
+
+[解析]:参见12.5
 
 
 
 ## 12.17
 
-参见12.6
+$$
+P(|E(h)-\widehat{E}(h)| \geqslant \epsilon) \leqslant 2 \exp \left(-2 m \epsilon^{2}\right)
+$$
+
+
+
+[解析]:参见12.6
 
 
 
@@ -339,19 +357,43 @@ $$
 
 ## 12.25
 
-参见12.24
+$$
+\left|\mathcal{H}_{| D}\right|=\left|\mathcal{H}_{| D^{\prime}}\right|+\left|\mathcal{H}_{D^{\prime} | D}\right|
+$$
+
+
+
+[解析]:参见12.24
 
 
 
 ## 12.26
 
-参见12.24
+$$
+\left|\mathcal{H}_{| D^{\prime}}\right| \leqslant \Pi_{\mathcal{H}}(m-1) \leqslant \sum_{i=0}^{d}\left(\begin{array}{c}
+m-1 \\
+i
+\end{array}\right)
+$$
+
+
+
+[解析]:参见12.24
 
 
 
 ## 12.27
 
-参见12.24
+$$
+\left|\mathcal{H}_{D^{\prime} | D}\right| \leqslant \Pi_{\mathcal{H}}(m-1) \leqslant \sum_{i=0}^{d-1}\left(\begin{array}{c}
+m-1 \\
+i
+\end{array}\right)
+$$
+
+
+
+[解析]:参见12.24
 
 
 
@@ -492,13 +534,23 @@ $$
 
 ## 12.32
 
-参见12.31
+$$
+\sqrt{\frac{\left(\ln 2 / \delta^{\prime}\right)}{2 m}}=\frac{\epsilon}{2}
+$$
+
+[解析]:参见12.31
 
 
 
 ## 12.34
 
-参见12.31
+$$
+\sqrt{\frac{8 d \ln \frac{2 e m}{d}+8 \ln \frac{4}{\delta^{\prime}}}{m}}=\frac{\epsilon}{2}
+$$
+
+
+
+[解析]:参见12.31
 
 
 
@@ -611,24 +663,48 @@ $$
 
 ## 12.43
 
-参见12.42
+$$
+\mathbb{E}[f(\boldsymbol{z})] \leqslant \frac{1}{m} \sum_{i=1}^{m} f\left(\boldsymbol{z}_{i}\right)+2 \widehat{R}_{Z}(\mathcal{F})+3 \sqrt{\frac{\ln (2 / \delta)}{2 m}}
+$$
+
+
+
+[解析]:参见12.42
 
 
 
 ## 12.44
 
-参见 12.42
+$$
+\Phi(Z) \leqslant \mathbb{E}_{Z}[\Phi(Z)]+\sqrt{\frac{\ln (1 / \delta)}{2 m}}
+$$
+
+
+
+[解析]:参见 12.42
 
 
 
 ## 12.45
 
-参见12.42
+$$
+R_{m}(\mathcal{F}) \leqslant \widehat{R}_{Z}(\mathcal{F})+\sqrt{\frac{\ln (2 / \delta)}{2 m}}
+$$
+
+
+
+[解析]:参见12.42
 
 
 
 ## 12.46
 
+$$
+\Phi(Z) \leqslant 2 \widehat{R}_{Z}(\mathcal{F})+3 \sqrt{\frac{\ln (2 / \delta)}{2 m}}
+$$
+
+
+
 参见12.42
 
 
@@ -648,22 +724,6 @@ $$
 
 [解析]:根据式12.28有$\Pi_{\mathcal{H}}(m) \leqslant\left(\frac{e \cdot m}{d}\right)^{d}$,根据式12.52有$R_{m}(\mathcal{H}) \leqslant \sqrt{\frac{2 \ln \Pi_{\mathcal{H}}(m)}{m}}$,因此$\Pi_{\mathcal{H}}(m) \leqslant \sqrt{\frac{2 d \ln \frac{e m}{d}}{m}}$,再根据式12.47 $E(h) \leqslant \widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln (1 / \delta)}{2 m}}$ 即证。
 
-## 12.54
-
-[解析]:定义式,无需证明。
-
-
-
-## 12.55
-
-[解析]:定义式,无需证明。
-
-
-
-## 12.56
-
-[解析]:定义式,无需证明。
-
 
 
 ## 12.57
@@ -678,12 +738,24 @@ $$
 
 ## 12.58
 
+$$
+\ell(\mathfrak{L}, \mathcal{D}) \leqslant \widehat{\ell}(\mathfrak{L}, D)+2 \beta+(4 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}
+$$
+
+
+
 [证明]:比较繁琐,同书上所示,参见[Mohri etc., 2012](https://cs.nyu.edu/~mohri/mlbook/)
 
 
 
 ## 12.59
 
+$$
+\ell(\mathfrak{L}, \mathcal{D}) \leqslant \ell_{l o o}(\mathfrak{L}, D)+\beta+(4 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}
+$$
+
+
+
 [证明]:比较繁琐,同书上所示,参见[Mohri etc., 2012](https://cs.nyu.edu/~mohri/mlbook/)
 
 

+ 8 - 8
docs/chapter13/chapter13.md

@@ -4,7 +4,7 @@ $$
 p(\boldsymbol{x})=\sum_{i=1}^{N} \alpha_{i} \cdot p\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \mathbf{\Sigma}_{i}\right)
 $$
 
-[解析]: 高斯混合分布的定义式
+[解析]: 高斯混合分布的定义式
 
 ## 13.2
 
@@ -94,7 +94,7 @@ $$
 $$
 
 
-即得式 13.6
+即得式 13.6
 
 ## 13.7
 
@@ -126,7 +126,7 @@ $$
 $$
 \sum_{\boldsymbol{x}_{j} \in D_{u}} \gamma_{j i} \cdot\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{\top}+\sum_{\left(\boldsymbol{x}_{j}, y_{j}\right) \in D_{l} \wedge y_{j}=i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{\top}=\left(\sum_{\boldsymbol{x}_{j} \in D_{u}} \gamma_{j i}+l_{i}\right) \boldsymbol{\Sigma}_{i}
 $$
-即得式 13.7
+即得式 13.7
 
 ## 13.8
 
@@ -199,7 +199,7 @@ $$
 $$
 l_i + \sum_{x_j \in{D_u}} \gamma_{ji}-\lambda \alpha_i = 0
 $$
-整理即得式 13.8
+整理即得式 13.8
 
 ## 13.9
 
@@ -212,7 +212,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:这个公式和公式 6.35 基本一致,除了引入了无标记样本的松弛变量$\xi_i, i=l+1,\cdots m$和对应的权重系数$C_u$
+[解析]:这个公式和公式 6.35 基本一致,除了引入了无标记样本的松弛变量$\xi_i, i=l+1,\cdots m$和对应的权重系数$C_u$
 
 ## 13.12
 
@@ -333,7 +333,7 @@ $$
 &=-2 \boldsymbol{W}_{u l} \boldsymbol{f}_{l}+2\left(\boldsymbol{D}_{u u}-\boldsymbol{W}_{u u}\right) \boldsymbol{f}_{u}
 \end{aligned}
 $$
-另结果等于 0 即得 13.15
+令结果等于 0 即得 13.15。
 
 ## 13.16
 
@@ -372,7 +372,7 @@ $$
 \mathbf{P}_{ul}&=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u l}
 \end{aligned}
 $$
-均可以根据$\mathbf{W}_{ij}$计算得到,因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
+均可以根据$\mathbf{W}_{ij}$计算得到,因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
 
 ## 13.20
 
@@ -407,7 +407,7 @@ $$
 $$
 \lim _{t \rightarrow \infty} \sum_{i=0}^{t-1}(\alpha \mathbf{S})^{i}=\frac{\mathbf{I}-\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}}{\mathbf{I}-\alpha \mathbf{S}}=\frac{\mathbf{I}}{\mathbf{I}-\alpha \mathbf{S}}=(\mathbf{I}-\alpha \mathbf{S})^{-1}
 $$
-综合可得式 13.20
+综合可得式 13.20
 
 
 

+ 29 - 5
docs/chapter14/chapter14.md

@@ -38,7 +38,7 @@ $$
 P\left(x_{A}, x_{B} | x_{C}\right) =\frac{\psi_{A C}\left(x_{A}, x_{C}\right)}{\sum_{x_{A}^{\prime}} \psi_{A C}\left(x_{A}^{\prime}, x_{C}\right)} \cdot \frac{\psi_{B C}\left(x_{B}, x_{C}\right)}{\sum_{x_{B}^{\prime}} \psi_{B C}\left(x_{B}^{\prime}, x_{C}\right)}
 $$
 
-[推导]:参见原书推导
+[推导]:参见原书推导
 
 ## 14.6
 
@@ -46,7 +46,7 @@ $$
 P\left(x_{A} | x_{C}\right) =\frac{\psi_{A C}\left(x_{A,} x_{C}\right)}{\sum_{x_{A}} \psi_{A C}\left(x_{A}^{\prime}, x_{C}\right)}
 $$
 
-[推导]:参见原书推导
+[推导]:参见原书推导
 
 ## 14.7
 
@@ -54,7 +54,7 @@ $$
 P\left(x_{A}, x_{B} | x_{C}\right)=P\left(x_{A} | x_{C}\right) P\left(x_{B} | x_{C}\right)
 $$
 
-[解析]:可由14.5、14.6得
+[解析]:可由14.5、14.6联立可
 
 ## 14.8
 
@@ -62,7 +62,7 @@ $$
 \psi_{Q}\left(\mathbf{x}_{Q}\right)=e^{-H_{Q}\left(\mathbf{x}_{Q}\right)}
 $$
 
-[解析]:此为势函数的定义式,即将势函数写作指数函数的形式
+[解析]:此为势函数的定义式,即将势函数写作指数函数的形式
 
 ## 14.9
 
@@ -226,7 +226,7 @@ $$
 norm = \max\left (p(x^{t-1})Q(x^* | x^{t-1}),p(x^*)Q(x^{t-1} | x^*) \right )
 \end{aligned}  
 $$
-即教材的$14.28$。
+即西瓜书中的$14.28$。
 
 ## 14.29
 
@@ -279,10 +279,22 @@ $$
 
 ## 14.33
 
+$$
+\mathcal{L}(q)=\int q(\mathbf{z}) \ln \left\{\frac{p(\mathbf{x}, \mathbf{z})}{q(\mathbf{z})}\right\} \mathrm{d} \mathbf{z}
+$$
+
+
+
 [解析]:见$14.32$解析。
 
 ## 14.34
 
+$$
+\mathrm{KL}(q \| p)=-\int q(\mathrm{z}) \ln \frac{p(\mathrm{z} | \mathrm{x})}{q(\mathrm{z})} \mathrm{d} \mathrm{z}
+$$
+
+
+
 [解析]:见$14.32$解析。
 
 ## 14.35
@@ -344,10 +356,22 @@ $$
 
 ## 14.37
 
+$$
+\ln \tilde{p}\left(\mathbf{x}, \mathbf{z}_{j}\right)=\mathbb{E}_{i \neq j}[\ln p(\mathbf{x}, \mathbf{z})]+\text { const }
+$$
+
+
+
 [解析]:参见14.36
 
 ## 14.38
 
+$$
+\mathbb{E}_{i \neq j}[\ln p(\mathbf{x}, \mathbf{z})]=\int \ln p(\mathbf{x}, \mathbf{z}) \prod_{i \neq j} q_{i} \mathrm{d} \mathbf{z}_{i}
+$$
+
+
+
 [解析]:参见14.36
 
 ## 14.39

+ 9 - 0
docs/chapter16/chapter16.md

@@ -15,6 +15,15 @@ $$
 
 ## 16.3
 
+$$
+\begin{aligned}
+&Q_{n}(k)=\frac{1}{n}\left((n-1) \times Q_{n-1}(k)+v_{n}\right)\\
+&=Q_{n-1}(k)+\frac{1}{n}\left(v_{n}-Q_{n-1}(k)\right)
+\end{aligned}
+$$
+
+
+
 [推导]:参见 16.2
 
 ## 16.4

+ 1 - 3
docs/chapter9/chapter9.md

@@ -59,9 +59,7 @@ $$
 $$
 RI=\frac{a+d}{a+b+c+d}=\frac{a+d}{m(m-1)/2}=\frac{2(a+d)}{m(m-1)}
 $$
-即可以理解为两个样本都属于聚类结果和参考模型中的同一类的样本对的个数与两个样本都分别不属于聚类结果和参考模型中的同一类的样本对的个数的总和在所有样本对中出现的频率,可以简单理解为聚类结果与参考模型的一致性。
-
-参看 https://en.wikipedia.org/wiki/Rand_index
+其可以理解为两个样本都属于聚类结果和参考模型中的同一类的样本对的个数与两个样本都分别不属于聚类结果和参考模型中的同一类的样本对的个数的总和在所有样本对中出现的频率,可以简单理解为聚类结果与参考模型的一致性。
 
 ## 9.8