il y a 5 ans · f50dfacb3a
--- a/docs/chapter11/chapter11.md
+++ b/docs/chapter11/chapter11.md
@@ -14,14 +14,6 @@ $$
 
				 
			
 
				 [解析]：此为信息熵的定义式，其中$p_k, k=1, 2, \dots \vert\mathcal{Y}\vert$表示$D$中第$i$类样本所占的比例。可以看出，样本越纯，即$p_k\rightarrow 0$或$p_k\rightarrow 1$时，$\mathrm{Ent}(D)$越小，其最小值为0。此时必有$p_i=1, p_{\backslash i}=0, i=1, 2, \dots, \vert\mathcal{Y}\vert$。
			
 
				 
			
 
				-## 11.3
			
 
				-
			
 
				-定义式，无需证明
			
 
				-
			
 
				-## 11.4
			
 
				-
			
 
				-定义式，无需证明
			
 
				-
			
 
				 ## 11.5
			
 
				 
			
 
				 $$
			
@@ -46,9 +38,18 @@ $$
 
				 
			
 
				 [解析]：该式将11.6中的$\mathrm{L}_2$正规化项替换成了$\mathrm{L}_1$正规化项，也叫LASSO回归。关于$\mathrm{L}_2$和$\mathrm{L}_1$两个正规化项的区别，原书图11.2给出了很形象的解释。具体来说，结合$\mathrm{L}_1$范数优化的模型参数分量更偏向于取0，因此更容易取得稀疏解。
			
 
				 
			
 
				-## 11.8
			
 
				+## 11.10
			
 
				 
			
 
				-令$\nabla$表示微分算子，对优化目标
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+\hat{f}(\boldsymbol{x}) & \simeq f\left(\boldsymbol{x}_{k}\right)+\left\langle\nabla f\left(\boldsymbol{x}_{k}\right), \boldsymbol{x}-\boldsymbol{x}_{k}\right\rangle+\frac{L}{2}\left\|\boldsymbol{x}-\boldsymbol{x}_{k}\right\|^{2} \\
			
 
				+&=\frac{L}{2}\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)\right\|_{2}^{2}+\mathrm{const}
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：令$\nabla$表示微分算子，对优化目标
			
 
				 $$
			
 
				 \min _{\boldsymbol{x}} f(\boldsymbol{x})+\lambda\|\boldsymbol{x}\|_{1}
			
 
				 $$
			
@@ -94,13 +95,7 @@ $$
 
				 $$
			
 
				 其中$\mathrm{const}=f(x_k)--\frac{1}{2 L} \nabla f\left(x_{k}\right)^{\top} \nabla f\left(x_{k}\right)$
			
 
				 
			
 
				-## 11.9
			
 
				-
			
 
				-参见 11.8
			
 
				-
			
 
				-## 11.10
			
 
				 
			
 
				-参见11.8
			
 
				 
			
 
				 ## 11.11
			
 
				 
			
--- a/docs/chapter12/chapter12.md
+++ b/docs/chapter12/chapter12.md
@@ -1,4 +1,4 @@
 
				-## 12.1
			
 
				+## \Phi(Z) \leqslant \mathbb{E}_{Z}[\Phi(Z)]+\sqrt{\frac{\ln (1 / \delta)}{2 m}}12.1
			
 
				 
			
 
				 $$
			
 
				 E(h ; \mathcal{D})=P_{\boldsymbol{x} \sim \mathcal{D}}(h(\boldsymbol{x}) \neq y)
			
@@ -163,19 +163,37 @@ $$
 
				 
			
 
				 ## 12.15
			
 
				 
			
 
				-参见12.5
			
 
				+$$
			
 
				+P(\widehat{E}(h)-E(h) \geqslant \epsilon) \leqslant \exp \left(-2 m \epsilon^{2}\right)
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.5
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.16
			
 
				 
			
 
				-参见12.5
			
 
				+$$
			
 
				+P(E(h)-\widehat{E}(h) \geqslant \epsilon) \leqslant \exp \left(-2 m \epsilon^{2}\right)
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.5
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.17
			
 
				 
			
 
				-参见12.6
			
 
				+$$
			
 
				+P(|E(h)-\widehat{E}(h)| \geqslant \epsilon) \leqslant 2 \exp \left(-2 m \epsilon^{2}\right)
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.6
			
 
				 
			
 
				 
			
 
				 
			
@@ -339,19 +357,43 @@ $$
 
				 
			
 
				 ## 12.25
			
 
				 
			
 
				-参见12.24
			
 
				+$$
			
 
				+\left|\mathcal{H}_{| D}\right|=\left|\mathcal{H}_{| D^{\prime}}\right|+\left|\mathcal{H}_{D^{\prime} | D}\right|
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.24
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.26
			
 
				 
			
 
				-参见12.24
			
 
				+$$
			
 
				+\left|\mathcal{H}_{| D^{\prime}}\right| \leqslant \Pi_{\mathcal{H}}(m-1) \leqslant \sum_{i=0}^{d}\left(\begin{array}{c}
			
 
				+m-1 \\
			
 
				+i
			
 
				+\end{array}\right)
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.24
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.27
			
 
				 
			
 
				-参见12.24
			
 
				+$$
			
 
				+\left|\mathcal{H}_{D^{\prime} | D}\right| \leqslant \Pi_{\mathcal{H}}(m-1) \leqslant \sum_{i=0}^{d-1}\left(\begin{array}{c}
			
 
				+m-1 \\
			
 
				+i
			
 
				+\end{array}\right)
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.24
			
 
				 
			
 
				 
			
 
				 
			
@@ -492,13 +534,23 @@ $$
 
				 
			
 
				 ## 12.32
			
 
				 
			
 
				-参见12.31
			
 
				+$$
			
 
				+\sqrt{\frac{\left(\ln 2 / \delta^{\prime}\right)}{2 m}}=\frac{\epsilon}{2}
			
 
				+$$
			
 
				+
			
 
				+[解析]：参见12.31
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.34
			
 
				 
			
 
				-参见12.31
			
 
				+$$
			
 
				+\sqrt{\frac{8 d \ln \frac{2 e m}{d}+8 \ln \frac{4}{\delta^{\prime}}}{m}}=\frac{\epsilon}{2}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.31
			
 
				 
			
 
				 
			
 
				 
			
@@ -611,24 +663,48 @@ $$
 
				 
			
 
				 ## 12.43
			
 
				 
			
 
				-参见12.42
			
 
				+$$
			
 
				+\mathbb{E}[f(\boldsymbol{z})] \leqslant \frac{1}{m} \sum_{i=1}^{m} f\left(\boldsymbol{z}_{i}\right)+2 \widehat{R}_{Z}(\mathcal{F})+3 \sqrt{\frac{\ln (2 / \delta)}{2 m}}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.42
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.44
			
 
				 
			
 
				-参见 12.42
			
 
				+$$
			
 
				+\Phi(Z) \leqslant \mathbb{E}_{Z}[\Phi(Z)]+\sqrt{\frac{\ln (1 / \delta)}{2 m}}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见 12.42
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.45
			
 
				 
			
 
				-参见12.42
			
 
				+$$
			
 
				+R_{m}(\mathcal{F}) \leqslant \widehat{R}_{Z}(\mathcal{F})+\sqrt{\frac{\ln (2 / \delta)}{2 m}}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：参见12.42
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.46
			
 
				 
			
 
				+$$
			
 
				+\Phi(Z) \leqslant 2 \widehat{R}_{Z}(\mathcal{F})+3 \sqrt{\frac{\ln (2 / \delta)}{2 m}}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 参见12.42
			
 
				 
			
 
				 
			
@@ -648,22 +724,6 @@ $$
 
				 
			
 
				 [解析]：根据式12.28有$\Pi_{\mathcal{H}}(m) \leqslant\left(\frac{e \cdot m}{d}\right)^{d}$，根据式12.52有$R_{m}(\mathcal{H}) \leqslant \sqrt{\frac{2 \ln \Pi_{\mathcal{H}}(m)}{m}}$，因此$\Pi_{\mathcal{H}}(m) \leqslant \sqrt{\frac{2 d \ln \frac{e m}{d}}{m}}$，再根据式12.47 $E(h) \leqslant \widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln (1 / \delta)}{2 m}}$ 即证。
			
 
				 
			
 
				-## 12.54
			
 
				-
			
 
				-[解析]：定义式，无需证明。
			
 
				-
			
 
				-
			
 
				-
			
 
				-## 12.55
			
 
				-
			
 
				-[解析]：定义式，无需证明。
			
 
				-
			
 
				-
			
 
				-
			
 
				-## 12.56
			
 
				-
			
 
				-[解析]：定义式，无需证明。
			
 
				-
			
 
				 
			
 
				 
			
 
				 ## 12.57
			
@@ -678,12 +738,24 @@ $$
 
				 
			
 
				 ## 12.58
			
 
				 
			
 
				+$$
			
 
				+\ell(\mathfrak{L}, \mathcal{D}) \leqslant \widehat{\ell}(\mathfrak{L}, D)+2 \beta+(4 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [证明]：比较繁琐，同书上所示，参见[Mohri etc., 2012](https://cs.nyu.edu/~mohri/mlbook/)
			
 
				 
			
 
				 
			
 
				 
			
 
				 ## 12.59
			
 
				 
			
 
				+$$
			
 
				+\ell(\mathfrak{L}, \mathcal{D}) \leqslant \ell_{l o o}(\mathfrak{L}, D)+\beta+(4 m \beta+M) \sqrt{\frac{\ln (1 / \delta)}{2 m}}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [证明]：比较繁琐，同书上所示，参见[Mohri etc., 2012](https://cs.nyu.edu/~mohri/mlbook/)
			
 
				 
			
 
				 
			
--- a/docs/chapter13/chapter13.md
+++ b/docs/chapter13/chapter13.md
@@ -4,7 +4,7 @@ $$
 
				 p(\boldsymbol{x})=\sum_{i=1}^{N} \alpha_{i} \cdot p\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \mathbf{\Sigma}_{i}\right)
			
 
				 $$
			
 
				 
			
 
				-[解析]： 高斯混合分布的定义式
			
 
				+[解析]： 高斯混合分布的定义式。
			
 
				 
			
 
				 ## 13.2
			
 
				 
			
@@ -94,7 +94,7 @@ $$
 
				 $$
			
 
				 
			
 
				 
			
 
				-即得式 13.6
			
 
				+即得式 13.6。
			
 
				 
			
 
				 ## 13.7
			
 
				 
			
@@ -126,7 +126,7 @@ $$
 
				 $$
			
 
				 \sum_{\boldsymbol{x}_{j} \in D_{u}} \gamma_{j i} \cdot\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{\top}+\sum_{\left(\boldsymbol{x}_{j}, y_{j}\right) \in D_{l} \wedge y_{j}=i}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{i}\right)^{\top}=\left(\sum_{\boldsymbol{x}_{j} \in D_{u}} \gamma_{j i}+l_{i}\right) \boldsymbol{\Sigma}_{i}
			
 
				 $$
			
 
				-即得式 13.7
			
 
				+即得式 13.7。
			
 
				 
			
 
				 ## 13.8
			
 
				 
			
@@ -199,7 +199,7 @@ $$
 
				 $$
			
 
				 l_i + \sum_{x_j \in{D_u}} \gamma_{ji}-\lambda \alpha_i = 0
			
 
				 $$
			
 
				-整理即得式 13.8
			
 
				+整理即得式 13.8。
			
 
				 
			
 
				 ## 13.9
			
 
				 
			
@@ -212,7 +212,7 @@ $$
 
				 \end{aligned}
			
 
				 $$
			
 
				 
			
 
				-[解析]：这个公式和公式 6.35 基本一致，除了引入了无标记样本的松弛变量$\xi_i, i=l+1,\cdots m$和对应的权重系数$C_u$
			
 
				+[解析]：这个公式和公式 6.35 基本一致，除了引入了无标记样本的松弛变量$\xi_i, i=l+1,\cdots m$和对应的权重系数$C_u$。
			
 
				 
			
 
				 ## 13.12
			
 
				 
			
@@ -333,7 +333,7 @@ $$
 
				 &=-2 \boldsymbol{W}_{u l} \boldsymbol{f}_{l}+2\left(\boldsymbol{D}_{u u}-\boldsymbol{W}_{u u}\right) \boldsymbol{f}_{u}
			
 
				 \end{aligned}
			
 
				 $$
			
 
				-另结果等于 0 即得 13.15
			
 
				+令结果等于 0 即得 13.15。
			
 
				 
			
 
				 ## 13.16
			
 
				 
			
@@ -372,7 +372,7 @@ $$
 
				 \mathbf{P}_{ul}&=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u l}
			
 
				 \end{aligned}
			
 
				 $$
			
 
				-均可以根据$\mathbf{W}_{ij}$计算得到，因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
			
 
				+均可以根据$\mathbf{W}_{ij}$计算得到，因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$。
			
 
				 
			
 
				 ## 13.20
			
 
				 
			
@@ -407,7 +407,7 @@ $$
 
				 $$
			
 
				 \lim _{t \rightarrow \infty} \sum_{i=0}^{t-1}(\alpha \mathbf{S})^{i}=\frac{\mathbf{I}-\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}}{\mathbf{I}-\alpha \mathbf{S}}=\frac{\mathbf{I}}{\mathbf{I}-\alpha \mathbf{S}}=(\mathbf{I}-\alpha \mathbf{S})^{-1}
			
 
				 $$
			
 
				-综合可得式 13.20
			
 
				+综合可得式 13.20。
			
 
				 
			
 
				 
			
 
				 
			
--- a/docs/chapter14/chapter14.md
+++ b/docs/chapter14/chapter14.md
@@ -38,7 +38,7 @@ $$
 
				 P\left(x_{A}, x_{B} | x_{C}\right) =\frac{\psi_{A C}\left(x_{A}, x_{C}\right)}{\sum_{x_{A}^{\prime}} \psi_{A C}\left(x_{A}^{\prime}, x_{C}\right)} \cdot \frac{\psi_{B C}\left(x_{B}, x_{C}\right)}{\sum_{x_{B}^{\prime}} \psi_{B C}\left(x_{B}^{\prime}, x_{C}\right)}
			
 
				 $$
			
 
				 
			
 
				-[推导]：参见原书推导
			
 
				+[推导]：参见原书推导。
			
 
				 
			
 
				 ## 14.6
			
 
				 
			
@@ -46,7 +46,7 @@ $$
 
				 P\left(x_{A} | x_{C}\right) =\frac{\psi_{A C}\left(x_{A,} x_{C}\right)}{\sum_{x_{A}} \psi_{A C}\left(x_{A}^{\prime}, x_{C}\right)}
			
 
				 $$
			
 
				 
			
 
				-[推导]：参见原书推导
			
 
				+[推导]：参见原书推导。
			
 
				 
			
 
				 ## 14.7
			
 
				 
			
@@ -54,7 +54,7 @@ $$
 
				 P\left(x_{A}, x_{B} | x_{C}\right)=P\left(x_{A} | x_{C}\right) P\left(x_{B} | x_{C}\right)
			
 
				 $$
			
 
				 
			
 
				-[解析]：可由14.5、14.6得
			
 
				+[解析]：可由14.5、14.6联立可得。
			
 
				 
			
 
				 ## 14.8
			
 
				 
			
@@ -62,7 +62,7 @@ $$
 
				 \psi_{Q}\left(\mathbf{x}_{Q}\right)=e^{-H_{Q}\left(\mathbf{x}_{Q}\right)}
			
 
				 $$
			
 
				 
			
 
				-[解析]：此为势函数的定义式，即将势函数写作指数函数的形式
			
 
				+[解析]：此为势函数的定义式，即将势函数写作指数函数的形式。
			
 
				 
			
 
				 ## 14.9
			
 
				 
			
@@ -226,7 +226,7 @@ $$
 
				 norm = \max\left (p(x^{t-1})Q(x^* | x^{t-1}),p(x^*)Q(x^{t-1} | x^*) \right )
			
 
				 \end{aligned}  
			
 
				 $$
			
 
				-即教材的$14.28$。
			
 
				+即西瓜书中的$14.28$。
			
 
				 
			
 
				 ## 14.29
			
 
				 
			
@@ -279,10 +279,22 @@ $$
 
				 
			
 
				 ## 14.33
			
 
				 
			
 
				+$$
			
 
				+\mathcal{L}(q)=\int q(\mathbf{z}) \ln \left\{\frac{p(\mathbf{x}, \mathbf{z})}{q(\mathbf{z})}\right\} \mathrm{d} \mathbf{z}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [解析]：见$14.32$解析。
			
 
				 
			
 
				 ## 14.34
			
 
				 
			
 
				+$$
			
 
				+\mathrm{KL}(q \| p)=-\int q(\mathrm{z}) \ln \frac{p(\mathrm{z} | \mathrm{x})}{q(\mathrm{z})} \mathrm{d} \mathrm{z}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [解析]：见$14.32$解析。
			
 
				 
			
 
				 ## 14.35
			
@@ -344,10 +356,22 @@ $$
 
				 
			
 
				 ## 14.37
			
 
				 
			
 
				+$$
			
 
				+\ln \tilde{p}\left(\mathbf{x}, \mathbf{z}_{j}\right)=\mathbb{E}_{i \neq j}[\ln p(\mathbf{x}, \mathbf{z})]+\text { const }
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [解析]：参见14.36
			
 
				 
			
 
				 ## 14.38
			
 
				 
			
 
				+$$
			
 
				+\mathbb{E}_{i \neq j}[\ln p(\mathbf{x}, \mathbf{z})]=\int \ln p(\mathbf{x}, \mathbf{z}) \prod_{i \neq j} q_{i} \mathrm{d} \mathbf{z}_{i}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [解析]：参见14.36
			
 
				 
			
 
				 ## 14.39
			
--- a/docs/chapter16/chapter16.md
+++ b/docs/chapter16/chapter16.md
@@ -15,6 +15,15 @@ $$
 
				 
			
 
				 ## 16.3
			
 
				 
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+&Q_{n}(k)=\frac{1}{n}\left((n-1) \times Q_{n-1}(k)+v_{n}\right)\\
			
 
				+&=Q_{n-1}(k)+\frac{1}{n}\left(v_{n}-Q_{n-1}(k)\right)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [推导]：参见 16.2
			
 
				 
			
 
				 ## 16.4
			
--- a/docs/chapter9/chapter9.md
+++ b/docs/chapter9/chapter9.md
@@ -59,9 +59,7 @@ $$
 
				 $$
			
 
				 RI=\frac{a+d}{a+b+c+d}=\frac{a+d}{m(m-1)/2}=\frac{2(a+d)}{m(m-1)}
			
 
				 $$
			
 
				-即可以理解为两个样本都属于聚类结果和参考模型中的同一类的样本对的个数与两个样本都分别不属于聚类结果和参考模型中的同一类的样本对的个数的总和在所有样本对中出现的频率，可以简单理解为聚类结果与参考模型的一致性。
			
 
				-
			
 
				-参看 https://en.wikipedia.org/wiki/Rand_index
			
 
				+其可以理解为两个样本都属于聚类结果和参考模型中的同一类的样本对的个数与两个样本都分别不属于聚类结果和参考模型中的同一类的样本对的个数的总和在所有样本对中出现的频率，可以简单理解为聚类结果与参考模型的一致性。
			
 
				 
			
 
				 ## 9.8