5 年之前 · cc07fb44e7
--- a/docs/chapter13/chapter13.md
+++ b/docs/chapter13/chapter13.md
@@ -12,7 +12,7 @@ $$
 
				 \begin{aligned} f(\boldsymbol{x}) &=\underset{j \in \mathcal{Y}}{\arg \max } p(y=j | \boldsymbol{x}) \\ &=\underset{j \in \mathcal{Y}}{\arg \max } \sum_{i=1}^{N} p(y=j, \Theta=i | \boldsymbol{x}) \\ &=\underset{j \in \mathcal{Y}}{\arg \max } \sum_{i=1}^{N} p(y=j | \Theta=i, \boldsymbol{x}) \cdot p(\Theta=i | \boldsymbol{x}) \end{aligned}
			
 
				 $$
			
 
				 
			
 
				-[解析]：从公式第 1 行到第 2 行是对概率进行边缘化(marginalization)；通过引入$\Theta$并对其求和 $$\sum_{i=1}^N$$以抵消引入的影响。从公式第 2 行到第 3 行推导如下
			
 
				+[解析]：从公式第 1 行到第 2 行是对概率进行边缘化(marginalization)；通过引入$\Theta$并对其求和 $\sum_{i=1}^N$以抵消引入的影响。从公式第 2 行到第 3 行推导如下
			
 
				 $$
			
 
				 \begin{aligned}p(y=j, \Theta=i | \boldsymbol{x}) &=\frac{p(y=j, \Theta=i, \boldsymbol{x})}{p(\boldsymbol{x})} \\&=\frac{p(y=j, \Theta=i, \boldsymbol{x})}{p(\Theta=i, \boldsymbol{x})} \cdot \frac{p(\Theta=i, \boldsymbol{x})}{p(\boldsymbol{x})} \\&=p(y=j | \Theta=i, \boldsymbol{x}) \cdot p(\Theta=i | \boldsymbol{x})\end{aligned}
			
 
				 $$
			
@@ -42,7 +42,7 @@ $$
 
				 $$
			
 
				 p(y=j | \Theta=i, \boldsymbol{x})=\left\{\begin{array}{ll}1, & i=j \\0, & i \neq j\end{array}\right.
			
 
				 $$
			
 
				-可知，这项限定了样本$$x_j$$只可能来自于$$y_j$$所对应的高斯分布。
			
 
				+可知，这项限定了样本$x_j$$只可能来自于$$y_j$所对应的高斯分布。
			
 
				 
			
 
				 ## 13.5
			
 
				 
			
@@ -140,7 +140,7 @@ $$
 
				 $$
			
 
				 
			
 
				 
			
 
				-类似于式 9.37，对$\alpha_i$求偏导。对于$$LL(D_u)$$，求导结果与式 9.37 的推导过程一样
			
 
				+类似于式 9.37，对$\alpha_i$求偏导。对于$LL(D_u)$，求导结果与式 9.37 的推导过程一样
			
 
				 $$
			
 
				 \frac{\partial L L\left(D_{u}\right)}{\partial \alpha_{i}}=\sum_{\boldsymbol{x}_{j} \in D_{u}} \frac{1}{\sum_{s=1}^{N} \alpha_{s} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{s}, \boldsymbol{\Sigma}_{s}\right)} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)
			
 
				 $$
			
@@ -300,6 +300,24 @@ $$
 
				 
			
 
				 ## 13.14
			
 
				 
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+E(f) &=\left(\boldsymbol{f}_{l}^{\mathrm{T}} \boldsymbol{f}_{u}^{\mathrm{T}}\right)\left(\left[\begin{array}{ll}
			
 
				+\mathbf{D}_{l l} & \mathbf{0}_{l u} \\
			
 
				+\mathbf{0}_{u l} & \mathbf{D}_{u u}
			
 
				+\end{array}\right]-\left[\begin{array}{ll}
			
 
				+\mathbf{W}_{l l} & \mathbf{W}_{l u} \\
			
 
				+\mathbf{W}_{u l} & \mathbf{W}_{u u}
			
 
				+\end{array}\right]\right)\left[\begin{array}{l}
			
 
				+\boldsymbol{f}_{l} \\
			
 
				+\boldsymbol{f}_{u}
			
 
				+\end{array}\right] \\
			
 
				+&=\boldsymbol{f}_{l}^{\mathrm{T}}\left(\mathbf{D}_{l l}-\mathbf{W}_{l l}\right) \boldsymbol{f}_{l}-2 \boldsymbol{f}_{u}^{\mathrm{T}} \mathbf{W}_{u l} \boldsymbol{f}_{l}+\boldsymbol{f}_{u}^{\mathrm{T}}\left(\mathbf{D}_{u u}-\mathbf{W}_{u u}\right) \boldsymbol{f}_{u}
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				 [解析]：参考 13.13
			
 
				 
			
 
				 ## 13.15
			
@@ -347,7 +365,14 @@ $$
 
				 \end{aligned}
			
 
				 $$
			
 
				 
			
 
				-[解析]：第一项到第二项是根据矩阵乘法逆的定义：$$(\mathbf{A}\mathbf{B})^{-1}=\mathbf{B}^{-1}\mathbf{A}^{-1}$$，在这个式子中$$\mathbf{P}_{u u}=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u u}, \mathbf{P}_{ul}=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u l}$$均可以根据$\mathbf{W}_{ij}$计算得到，因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
			
 
				+[解析]：第一项到第二项是根据矩阵乘法逆的定义：$(\mathbf{A}\mathbf{B})^{-1}=\mathbf{B}^{-1}\mathbf{A}^{-1}$，在这个式子中
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+\mathbf{P}_{u u}&=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u u}\\
			
 
				+\mathbf{P}_{ul}&=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u l}
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+均可以根据$\mathbf{W}_{ij}$计算得到，因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
			
 
				 
			
 
				 ## 13.20
			
 
				 
			
@@ -378,7 +403,7 @@ $$
 
				 $$
			
 
				 \mathbf{F}^{*}=\lim _{t \rightarrow \infty}\mathbf{F}(t)=\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t} \mathbf{Y}+\lim _{t \rightarrow \infty}(1-\alpha)\left(\sum_{i=0}^{t-1}(\alpha \mathbf{S})^{i}\right) \mathbf{Y}
			
 
				 $$
			
 
				-其中第一项由于$\mathbf{S}=\mathbf{D}^{-\frac{1}{2}} \mathbf{W} \mathbf{D}^{-\frac{1}{2}}$的特征值介于[-1, 1]之间(这里省略详细推导，可以参见 https://en.wikipedia.org/wiki/Laplacian_matrix 其中对称拉普拉斯矩阵的特征值介于 0 和 2 之间)，而$\alpha\in(0,1)$，所以$$\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}=0$$，第二项由等比数列公式
			
 
				+其中第一项由于$\mathbf{S}=\mathbf{D}^{-\frac{1}{2}} \mathbf{W} \mathbf{D}^{-\frac{1}{2}}$的特征值介于[-1, 1]之间(这里省略详细推导，可以参见 https://en.wikipedia.org/wiki/Laplacian_matrix 其中对称拉普拉斯矩阵的特征值介于 0 和 2 之间)，而$\alpha\in(0,1)$，所以$\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}=0$，第二项由等比数列公式
			
 
				 $$
			
 
				 \lim _{t \rightarrow \infty} \sum_{i=0}^{t-1}(\alpha \mathbf{S})^{i}=\frac{\mathbf{I}-\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}}{\mathbf{I}-\alpha \mathbf{S}}=\frac{\mathbf{I}}{\mathbf{I}-\alpha \mathbf{S}}=(\mathbf{I}-\alpha \mathbf{S})^{-1}
			
 
				 $$
			
--- a/docs/chapter14/chapter14.md
+++ b/docs/chapter14/chapter14.md
@@ -30,7 +30,7 @@ $$
 
				 P\left(x_{A}, x_{B}, x_{C}\right)=\frac{1}{Z} \psi_{A C}\left(x_{A}, x_{C}\right) \psi_{B C}\left(x_{B}, x_{C}\right)
			
 
				 $$
			
 
				 
			
 
				-[解析]：将图$$14.3$$分解成$x_{A}, x_{C}$ 和 $x_{B}, x_{C}$ 两个团。
			
 
				+[解析]：将图$14.3$分解成$x_{A}, x_{C}$ 和 $x_{B}, x_{C}$ 两个团。
			
 
				 
			
 
				 ## 14.5
			
 
				 
			
@@ -177,7 +177,6 @@ $$
 
				 \begin{aligned}
			
 
				 \pi T=\pi
			
 
				 \end{aligned}
			
 
				-\tag{1}
			
 
				 $$
			
 
				 其中, $\pi$是一个是一个$n$维向量，代表$s_1,s_2,..,s_n$对应的概率. 反过来, 如果我们希望采样得到符合某个分布$\pi$的一系列变量$x_1,x_2,..,x_t$, 应当采用哪一个转移矩阵$T(n\times n)$呢？
			
 
				 
			
@@ -186,16 +185,14 @@ $$
 
				 \begin{aligned}
			
 
				 \pi (i)T(i,j)=\pi (j)T(j,i)
			
 
				 \end{aligned}
			
 
				-\tag{2}
			
 
				 $$
			
 
				 即公式$14.26$，这里采用的符号与西瓜书略有区别以便于理解.  证明如下
			
 
				 $$
			
 
				 \begin{aligned}
			
 
				 \pi T(j) = \sum _i \pi (i)T(i,j) = \sum _i \pi (j)T(j,i) = \pi(j)
			
 
				 \end{aligned} 
			
 
				-\tag{3}
			
 
				 $$
			
 
				-假设采样得到的序列为$x_1,x_2,..,x_{t-1},x_t$，则可以使用$MH$算法来使得$x_{t-1}$(假设为状态$s_i$)转移到$x_t$(假设为状态$s_j$)的概率满足式$(2)$。
			
 
				+假设采样得到的序列为$x_1,x_2,..,x_{t-1},x_t$，则可以使用$MH$算法来使得$x_{t-1}$(假设为状态$s_i$)转移到$x_t$(假设为状态$s_j$)的概率满足式。
			
 
				 
			
 
				 ## 14.27
			
 
				 
			
@@ -215,22 +212,19 @@ $$
 
				   A(x^* | x^{t-1}) &= p(x^*)Q(x^{t-1} | x^*)  \\
			
 
				   A(x^{t-1} | x^*) &= p(x^{t-1})Q(x^* | x^{t-1})
			
 
				  \end{aligned} 
			
 
				- \tag{4}
			
 
				 $$
			
 
				-即可满足式$14.26$，但是实际上等号右边的数值可能比较小，比如各为0.1和0.2，那么好不容易才到的样本只有百分之十几得到利用，所以不妨将接受率设为0.5和1，则细致平稳分布条件依然满足，样本利用率大大提高, 所以可以将$(4)$改进为
			
 
				+即可满足式$14.26$，但是实际上等号右边的数值可能比较小，比如各为0.1和0.2，那么好不容易才到的样本只有百分之十几得到利用，所以不妨将接受率设为0.5和1，则细致平稳分布条件依然满足，样本利用率大大提高, 所以可以改进为
			
 
				 $$
			
 
				 \begin{aligned} 
			
 
				 A(x^* | x^{t-1}) &=  \frac{p(x^*)Q(x^{t-1} | x^*)}{norm}  \\  
			
 
				 A(x^{t-1} | x^*) &= \frac{p(x^{t-1})Q(x^* | x^{t-1}) }{norm}
			
 
				-\end{aligned}  
			
 
				-\tag{5}
			
 
				+\end{aligned} 
			
 
				 $$
			
 
				 其中
			
 
				 $$
			
 
				 \begin{aligned} 
			
 
				 norm = \max\left (p(x^{t-1})Q(x^* | x^{t-1}),p(x^*)Q(x^{t-1} | x^*) \right )
			
 
				 \end{aligned}  
			
 
				-\tag{6}
			
 
				 $$
			
 
				 即教材的$14.28$。
			
 
				 
			
--- a/docs/chapter16/chapter16.md
+++ b/docs/chapter16/chapter16.md
@@ -23,10 +23,6 @@ $$
 
				 P(k)=\frac{e^{\frac{Q(k)}{\tau }}}{\sum_{i=1}^{K}e^{\frac{Q(i)}{\tau}}}
			
 
				 $$
			
 
				 
			
 
				-$$
			
 
				-\tau越小则平均奖赏高的摇臂被选取的概率越高
			
 
				-$$
			
 
				-
			
 
				 [解析]：
			
 
				 $$
			
 
				 P(k)=\frac{e^{\frac{Q(k)}{\tau }}}{\sum_{i=1}^{K}e^{\frac{Q(i)}{\tau}}}\propto e^{\frac{Q(k)}{\tau }}\propto\frac{Q(k)}{\tau }\propto\frac{1}{\tau}
			
--- a/docs/chapter9/chapter9.md
+++ b/docs/chapter9/chapter9.md
@@ -6,7 +6,6 @@ $$
 
				 
			
 
				 [解析]：给定两个集合$A$和$B$，则Jaccard系数定义为如下公式
			
 
				 
			
 
				-
			
 
				 $$
			
 
				 JC=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|A\bigcap B|}{|A|+|B|-|A\bigcap B|}
			
 
				 $$
			
@@ -70,7 +69,7 @@ $$
 
				 \operatorname{avg}(C)=\frac{2}{|C|(|C|-1)} \sum_{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)
			
 
				 $$
			
 
				 
			
 
				-[解析]簇内距离的定义式：求和号左边是$(x_i, x_j)$组合个数的倒数，求和号右边是这些组合的距离和，所以两者相乘定义为平均距离。
			
 
				+[解析]：簇内距离的定义式：求和号左边是$(x_i, x_j)$组合个数的倒数，求和号右边是这些组合的距离和，所以两者相乘定义为平均距离。
			
 
				 
			
 
				 ## 9.33
			
 
				 $$
			
@@ -204,7 +203,7 @@ $$
 
				 \sum_{j=1}^m\sum_{i=1}^k\frac{\alpha_{i}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{i},\mathbf\Sigma_{i})}{\sum_{l=1}^k\alpha_{l}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{l},\mathbf\Sigma_{l})}&=-\lambda\sum_{i=1}^k\alpha_{i}
			
 
				 \end{aligned}
			
 
				 $$
			
 
				-由$$m=-\lambda$$,
			
 
				+由$$m=-\lambda$$有
			
 
				 $$
			
 
				 \sum_{j=1}^m\frac{\alpha_{i}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{i},\mathbf\Sigma_{i})}{\sum_{l=1}^k\alpha_{l}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{l},\mathbf\Sigma_{l})}=-\lambda\alpha_{i}=m\alpha_{i}
			
 
				 $$
			
@@ -219,22 +218,4 @@ $$
 
				 
			
 
				 此即为公式(9.38)
			
 
				 
			
 
				-## 附录
			
 
				-参考公式
			
 
				-$$
			
 
				-\frac{\partial\boldsymbol x^TB\boldsymbol x}{\partial\boldsymbol x}=\left(B+B^T\right)\boldsymbol x 
			
 
				-$$
			
 
				-$$
			
 
				-\frac{\partial}{\partial A}ln|A|=\left(A^{-1}\right)^T
			
 
				-$$
			
 
				-$$
			
 
				-\frac{\partial}{\partial x}\left(A^{-1}\right)=-A^{-1}\frac{\partial A}{\partial x}A^{-1}
			
 
				-$$
			
 
				-
			
 
				-## 参考文献
			
 
				-[1] Meilă, Marina. "Comparing clusterings—an information based distance." Journal of multivariate analysis 98.5 (2007): 873-895.<br>
			
 
				-[2] Halkidi, Maria, Yannis Batistakis, and Michalis Vazirgiannis. "On clustering validation techniques." Journal of intelligent information systems 17.2-3 (2001): 107-145.<br>
			
 
				-[3] Petersen, K. B. & Pedersen, M. S. *The Matrix Cookbook*.<br>
			
 
				-[4] Bishop, C. M. (2006). *Pattern Recognition and Machine Learning*. Springer.<br>
			
 
				-