6 سال پیش · 4fc600ab5e
--- a/docs/chapter14/chapter14.md
+++ b/docs/chapter14/chapter14.md
@@ -1,3 +1,173 @@
 
				+## 14.1
			
 
				+
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+P\left(x_{1}, y_{1}, \ldots, x_{n}, y_{n}\right)=P\left(y_{1}\right) P\left(x_{1} | y_{1}\right) \prod_{i=2}^{n} P\left(y_{i} | y_{i-1}\right) P\left(x_{i} | y_{i}\right)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+[解析]：所有的相乘关系都表示概率的相互独立。三种概率$P\left(y_{i}\right), P\left(x_{i} | y_{i}\right), P\left(x_{i} | y_{i}\right)$ 分别表示初始状态概率，输出观测概率和条件转移概率。
			
 
				+
			
 
				+## 14.2
			
 
				+
			
 
				+$$
			
 
				+P(\mathbf{x})=\frac{1}{Z} \prod_{Q \in C} \psi_{Q}\left(\mathbf{x}_{Q}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：连乘号都表示各个团之间概率分布相互独立。
			
 
				+
			
 
				+## 14.3
			
 
				+
			
 
				+$$
			
 
				+P(\mathbf{x})=\frac{1}{Z^*} \prod_{Q \in C*} \psi_{Q}\left(\mathbf{x}_{Q}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：意义同式$14.2$, 区别在于此处的团为极大团。
			
 
				+
			
 
				+## 14.4
			
 
				+
			
 
				+$$
			
 
				+P\left(x_{A}, x_{B}, x_{C}\right)=\frac{1}{Z} \psi_{A C}\left(x_{A}, x_{C}\right) \psi_{B C}\left(x_{B}, x_{C}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：将图$$14.3$$分解成$x_{A}, x_{C}$ 和 $x_{B}, x_{C}$ 两个团。
			
 
				+
			
 
				+## 14.5
			
 
				+
			
 
				+$$
			
 
				+P\left(x_{A}, x_{B} | x_{C}\right) =\frac{\psi_{A C}\left(x_{A}, x_{C}\right)}{\sum_{x_{A}^{\prime}} \psi_{A C}\left(x_{A}^{\prime}, x_{C}\right)} \cdot \frac{\psi_{B C}\left(x_{B}, x_{C}\right)}{\sum_{x_{B}^{\prime}} \psi_{B C}\left(x_{B}^{\prime}, x_{C}\right)}
			
 
				+$$
			
 
				+
			
 
				+[推导]：参见原书推导
			
 
				+
			
 
				+## 14.6
			
 
				+
			
 
				+$$
			
 
				+P\left(x_{A} | x_{C}\right) =\frac{\psi_{A C}\left(x_{A,} x_{C}\right)}{\sum_{x_{A}} \psi_{A C}\left(x_{A}^{\prime}, x_{C}\right)}
			
 
				+$$
			
 
				+
			
 
				+[推导]：参见原书推导
			
 
				+
			
 
				+## 14.7
			
 
				+
			
 
				+$$
			
 
				+P\left(x_{A}, x_{B} | x_{C}\right)=P\left(x_{A} | x_{C}\right) P\left(x_{B} | x_{C}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：可由14.5、14.6得
			
 
				+
			
 
				+## 14.8
			
 
				+
			
 
				+$$
			
 
				+\psi_{Q}\left(\mathbf{x}_{Q}\right)=e^{-H_{Q}\left(\mathbf{x}_{Q}\right)}
			
 
				+$$
			
 
				+
			
 
				+[解析]：此为势函数的定义式，即将势函数写作指数函数的形式
			
 
				+
			
 
				+## 14.9
			
 
				+
			
 
				+$$
			
 
				+H_{Q}\left(\mathbf{x}_{Q}\right)=\sum_{u, v \in Q, u \neq v} \alpha_{u v} x_{u} x_{v}+\sum_{v \in Q} \beta_{v} x_{v}
			
 
				+$$
			
 
				+
			
 
				+[解析]：此为定义在变量$\mathbf{x}_{Q}$上的函数$H_{Q}\left(\cdot\right)$的定义式，第二项考虑单节点，第一项考虑每一对节点之间的关系。
			
 
				+
			
 
				+## 14.10
			
 
				+
			
 
				+$$
			
 
				+P\left(y_{v} | \mathbf{x}, \mathbf{y}_{V \backslash\{v\}}\right)=P\left(y_{v} | \mathbf{x}, \mathbf{y}_{n(v)}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：根据局部马尔科夫性，给定某变量得邻接变量，则该变量独立与其他变量，即改变量只与其邻接变量有关，所以式$14.10$中给定变量$v$ 以外的所有变量与仅给定变量$v$的邻接变量是等价的。
			
 
				+
			
 
				+## 14.14
			
 
				+
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+P\left(x_{5}\right) &=\sum_{x_{4}} \sum_{x_{3}} \sum_{x_{2}} \sum_{x_{1}} P\left(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}\right) \\
			
 
				+&=\sum_{x_{4}} \sum_{x_{3}} \sum_{x_{2}} \sum_{x_{1}} P\left(x_{1}\right) P\left(x_{2} | x_{1}\right) P\left(x_{3} | x_{2}\right) P\left(x_{4} | x_{3}\right) P\left(x_{5} | x_{3}\right)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+[解析]：在消去变量的过程中，在消去每一个变量时需要保证其依赖的变量已经消去，因此消去顺序应该是有向概率图中的一条以目标节点为终点的拓扑序列。
			
 
				+
			
 
				+## 14.15
			
 
				+
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+P\left(x_{5}\right) &=\sum_{x_{3}} P\left(x_{5} | x_{3}\right) \sum_{x_{4}} P\left(x_{4} | x_{3}\right) \sum_{x_{2}} P\left(x_{3} | x_{2}\right) \sum_{x_{1}} P\left(x_{1}\right) P\left(x_{2} | x_{1}\right)\\
			
 
				+&=\sum_{x_{3}} P\left(x_{5} | x_{3}\right) \sum_{x_{4}} P\left(x_{4} | x_{3}\right) \sum_{x_{2}} P\left(x_{3} | x_{2}\right) m_{12}\left(x_{2}\right)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+[解析]：变量消去的顺序为从右至左求和号的下标，应当注意$x_4$与$x_5$相互独立，因此可与$x_3$的消去顺序互换，对最终结果无影响。
			
 
				+
			
 
				+## 14.16
			
 
				+
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+P\left(x_{5}\right) &=\sum_{x_{3}} P\left(x_{5} | x_{3}\right) \sum_{x_{4}} P\left(x_{4} | x_{3}\right) m_{23}\left(x_{3}\right) \\
			
 
				+&=\sum_{x_{3}} P\left(x_{5} | x_{3}\right) m_{23}\left(x_{3}\right) \sum_{x_{4}} P\left(x_{4} | x_{3}\right) \\
			
 
				+&=\sum_{x_{3}} P\left(x_{5} | x_{3}\right) m_{23}\left(x_{3}\right) \\
			
 
				+&=m_{35}\left(x_{5}\right)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+[解析]：注意到$\sum_{x_{4}} P\left(x_{4} | x_{3}\right) = 1$。
			
 
				+
			
 
				+## 14.17
			
 
				+
			
 
				+$$
			
 
				+P\left(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}\right)=\frac{1}{Z} \psi_{12}\left(x_{1}, x_{2}\right) \psi_{23}\left(x_{2}, x_{3}\right) \psi_{34}\left(x_{3}, x_{4}\right) \psi_{35}\left(x_{3}, x_{5}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：忽略图$14.7(a)$中的箭头，然后把无向图中的每条边的两个端点作为一个团将其分解为四个团因子的乘积。$Z$为规范化因子确保所有可能性的概率之和为$1$。
			
 
				+
			
 
				+## 14.18
			
 
				+
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+P\left(x_{5}\right) &=\frac{1}{Z} \sum_{x_{3}} \psi_{35}\left(x_{3}, x_{5}\right) \sum_{x_{4}} \psi_{34}\left(x_{3}, x_{4}\right) \sum_{x_{2}} \psi_{23}\left(x_{2}, x_{3}\right) \sum_{x_{1}} \psi_{12}\left(x_{1}, x_{2}\right) \\
			
 
				+&=\frac{1}{Z} \sum_{x_{3}} \psi_{35}\left(x_{3}, x_{5}\right) \sum_{x_{4}} \psi_{34}\left(x_{3}, x_{4}\right) \sum_{x_{2}} \psi_{23}\left(x_{2}, x_{3}\right) m_{12}\left(x_{2}\right) \\
			
 
				+&=\cdots \\
			
 
				+&=\frac{1}{Z} m_{35}\left(x_{5}\right)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+[解析]：原理同式$14.15$, 区别在于把条件概率替换为势函数。
			
 
				+
			
 
				+## 14.19
			
 
				+
			
 
				+$$
			
 
				+m_{i j}\left(x_{j}\right)=\sum_{x_{i}} \psi\left(x_{i}, x_{j}\right) \prod_{k \in n(i) \backslash j} m_{k i}\left(x_{i}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：该式表示从节点$i$传递到节点$j$的过程，求和号表示要考虑节点$i$的所有可能取值。连乘号解释见式$14.20$。应当注意这里连乘号的下标不包括节点$j$，节点$i$只需要把自己知道的关于$j$以外的消息告诉节点$j$即可。
			
 
				+
			
 
				+## 14.20
			
 
				+
			
 
				+$$
			
 
				+P\left(x_{i}\right) \propto \prod_{k \in n(i)} m_{k i}\left(x_{i}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：应当注意这里是正比于而不是等于，因为涉及到概率的规范化。可以这么解释，每个变量可以看作一个有一些邻居的房子，每个邻居根据其自己的见闻告诉你一些事情(消息)，任何一条消息的可信度应当与所有邻居都有相关性，此处这种相关性用乘积来表达。【引用http://helper.ipam.ucla.edu/publications/gss2013/gss2013_11344.pdf】
			
 
				+
			
 
				+## 14.22
			
 
				+
			
 
				+$$
			
 
				+\hat{f}=\frac{1}{N} \sum_{i=1}^{N} f\left(x_{i}\right)
			
 
				+$$
			
 
				+
			
 
				+[推导]：假设$x$有M种不同的取值，$x_i$的采样数量为$m_i$(连续取值可以采用微积分的方法分割为离散的取值)，则
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+\hat{f}&=\frac{1}{N} \sum_{j=1}^{M} f\left(x_{j}\right) \cdot m_j \\
			
 
				+&= \sum_{j=1}^{M} f\left(x_{j}\right)\cdot \frac{m_j}{N} \\
			
 
				+&\approx \sum_{j=1}^{M} f\left(x_{j}\right)\cdot p(x_j)  \\
			
 
				+&\approx \int f(x) p(x) dx
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				 ## 14.26
			
 
				 
			
 
				 $$p(x^t)T(x^{t-1}|x^t)=p(x^{t-1})T(x^t|x^{t-1})$$
			
@@ -9,7 +179,7 @@ $$
 
				 \end{aligned}
			
 
				 \tag{1}
			
 
				 $$
			
 
				-其中, $\pi$是一个是一个$n$维向量，代表$s_1,s_2,..,s_n$对应的概率. 反过来, 如果我们希望采样得到符合某个分布$\pi$的一系列变量$x_1,x_2,..,x_t$, 应当采用哪一个转移矩阵$T(n\times n)$呢？
			
 
				+其中, $\pi$是一个是一个$n$维向量，代表$s_1,s_2,..,s_n$对应的概率. 反过来, 如果我们希望采样得到符合某个分布$\pi$的一系列变量$x_1,x_2,..,x_t$, 应当采用哪一个转移矩阵$T(n\times n)$呢？
			
 
				 
			
 
				 事实上，转移矩阵只需要满足马尔可夫细致平稳条件
			
 
				 $$
			
@@ -18,20 +188,28 @@ $$
 
				 \end{aligned}
			
 
				 \tag{2}
			
 
				 $$
			
 
				-即公式$14.26$，这里采用的符号与西瓜书略有区别以便于理解.  证明如下
			
 
				+即公式$14.26$，这里采用的符号与西瓜书略有区别以便于理解.  证明如下
			
 
				 $$
			
 
				 \begin{aligned}
			
 
				 \pi T(j) = \sum _i \pi (i)T(i,j) = \sum _i \pi (j)T(j,i) = \pi(j)
			
 
				 \end{aligned} 
			
 
				 \tag{3}
			
 
				 $$
			
 
				-假设采样得到的序列为$x_1,x_2,..,x_{t-1},x_t$，则可以使用$MH$算法来使得$x_{t-1}$(假设为状态$s_i$)转移到$x_t$(假设为状态$s_j$)的概率满足式$(2)$.
			
 
				+假设采样得到的序列为$x_1,x_2,..,x_{t-1},x_t$，则可以使用$MH$算法来使得$x_{t-1}$(假设为状态$s_i$)转移到$x_t$(假设为状态$s_j$)的概率满足式$(2)$。
			
 
				+
			
 
				+## 14.27
			
 
				+
			
 
				+$$
			
 
				+p\left(\mathbf{x}^{t-1}\right) Q\left(\mathbf{x}^{*} | \mathbf{x}^{t-1}\right) A\left(\mathbf{x}^{*} | \mathbf{x}^{t-1}\right)=p\left(\mathbf{x}^{*}\right) Q\left(\mathbf{x}^{t-1} | \mathbf{x}^{*}\right) A\left(\mathbf{x}^{t-1} | \mathbf{x}^{*}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：这里把式$14.26$中的函数$T$ 拆分为两个函数$Q$和$A$之积，即先验概率和接受概率，便于实际算法的实现。
			
 
				 
			
 
				 ## 14.28
			
 
				 
			
 
				 $$A(x^* | x^{t-1}) = \min\left ( 1,\frac{p(x^*)Q(x^{t-1} | x^*) }{p(x^{t-1})Q(x^* | x^{t-1})} \right )$$
			
 
				 
			
 
				-[推导]：这个公式其实是拒绝采样的一个trick，因为基于式$14.27$只需要
			
 
				+[推导]：这个公式其实是拒绝采样的一个trick，因为基于式$14.27$只需要
			
 
				 $$
			
 
				 \begin{aligned}
			
 
				   A(x^* | x^{t-1}) &= p(x^*)Q(x^{t-1} | x^*)  \\
			
@@ -54,7 +232,34 @@ norm = \max\left (p(x^{t-1})Q(x^* | x^{t-1}),p(x^*)Q(x^{t-1} | x^*) \right )
 
				 \end{aligned}  
			
 
				 \tag{6}
			
 
				 $$
			
 
				-即教材的$14.28$.
			
 
				+即教材的$14.28$。
			
 
				+
			
 
				+## 14.29
			
 
				+
			
 
				+$$
			
 
				+p(\mathbf{x} | \Theta)=\prod_{i=1}^{N} \sum_{\mathbf{z}} p\left(x_{i}, \mathbf{z} | \Theta\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：连乘号是因为$N$个变量的生成过程相互独立。求和号是因为每个变量的生成过程需要考虑中间隐变量的所有可能性，类似于边际分布的计算方式。
			
 
				+
			
 
				+## 14.30
			
 
				+
			
 
				+$$
			
 
				+\ln p(\mathbf{x} | \Theta)=\sum_{i=1}^{N} \ln \left\{\sum_{\mathbf{z}} p\left(x_{i}, \mathbf{z} | \Theta\right)\right\}
			
 
				+$$
			
 
				+
			
 
				+[解析]：对式$14.29$取对数。
			
 
				+
			
 
				+## 14.31
			
 
				+
			
 
				+$$
			
 
				+\begin{aligned}
			
 
				+\Theta^{t+1} &=\underset{\Theta}{\arg \max } \mathcal{Q}\left(\Theta ; \Theta^{t}\right) \\
			
 
				+&=\underset{\Theta}{\arg \max } \sum_{\mathbf{z}} p\left(\mathbf{z} | \mathbf{x}, \Theta^{t}\right) \ln p(\mathbf{x}, \mathbf{z} | \Theta)
			
 
				+\end{aligned}
			
 
				+$$
			
 
				+
			
 
				+[解析]：EM算法中的M步，参见$7.6$节。
			
 
				 
			
 
				 ## 14.32
			
 
				 
			
@@ -78,6 +283,21 @@ $$
 
				 \end{aligned}
			
 
				 $$
			
 
				 
			
 
				+## 14.33
			
 
				+
			
 
				+[解析]：见$14.32$解析。
			
 
				+
			
 
				+## 14.34
			
 
				+
			
 
				+[解析]：见$14.32$解析。
			
 
				+
			
 
				+## 14.35
			
 
				+
			
 
				+$$
			
 
				+q(\mathbf{z})=\prod_{i=1}^{M} q_{i}\left(\mathbf{z}_{i}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：再一次，条件独立的假设。可以看到，当问题复杂是往往简化问题到最简单最容易计算的局面，实际上往往效果不错。
			
 
				 
			
 
				 ## 14.36
			
 
				 
			
@@ -128,6 +348,22 @@ $$
 
				 $$
			
 
				 这个就是$14.36$右边的积分部分。
			
 
				 
			
 
				+## 14.37
			
 
				+
			
 
				+[解析]：参见14.36
			
 
				+
			
 
				+## 14.38
			
 
				+
			
 
				+[解析]：参见14.36
			
 
				+
			
 
				+## 14.39
			
 
				+
			
 
				+$$
			
 
				+\ln q_{j}^{*}\left(\mathbf{z}_{j}\right)=\mathbb{E}_{i \neq j}[\ln p(\mathbf{x}, \mathbf{z})]+\mathrm{const}
			
 
				+$$
			
 
				+
			
 
				+[解析]：散度取得极值的条件是两个概率分布相同，见附录$C.3$。
			
 
				+
			
 
				 ## 14.40
			
 
				 
			
 
				 $$
			
@@ -143,18 +379,52 @@ $$
 
				  &=\exp(const) \int \exp\left ( \mathbb{E}_{i\neq j}[\ln (p(\mathbf{x},\mathbf{z}))] \right ) \, \mathrm{d}\mathbf{z}_j \\
			
 
				  &= 1
			
 
				  \end{aligned}
			
 
				- \tag{7}
			
 
				 $$
			
 
				 所以
			
 
				 $$
			
 
				 \exp(const)  = \dfrac{1}{\int \exp\left ( \mathbb{E}_{i\neq j}[\ln (p(\mathbf{x},\mathbf{z}))] \right ) \, \mathrm{d}\mathbf{z}_j}  \\
			
 
				-\tag{8}
			
 
				 $$
			
 
				 
			
 
				 $$
			
 
				 \begin{aligned} 
			
 
				-  q_j^*(\mathbf{z}_j) &= \exp\left ( \mathbb{E}_{i\neq j}[\ln (p(\mathbf{x},\mathbf{z}))] \right )\cdot\exp(const) \, \mathrm{d}\mathbf{z}_j \\
			
 
				+  q_j^*(\mathbf{z}_j) &= \exp\left ( \mathbb{E}_{i\neq j}[\ln (p(\mathbf{x},\mathbf{z}))] \right )\cdot\exp(const)  \\
			
 
				  &= \frac{ \exp\left ( \mathbb{E}_{i\neq j}[\ln (p(\mathbf{x},\mathbf{z}))] \right ) }{\int \exp\left ( \mathbb{E}_{i\neq j}[\ln (p(\mathbf{x},\mathbf{z}))] \right ) \mathrm{d}\mathbf{z}_j}
			
 
				  \end{aligned}
			
 
				- \tag{9}
			
 
				 $$
			
 
				+
			
 
				+## 14.41
			
 
				+
			
 
				+$$
			
 
				+p(\boldsymbol W,\boldsymbol z,\boldsymbol \beta,\boldsymbol \theta | \boldsymbol \alpha,\boldsymbol \eta) =
			
 
				+\prod_{t=1}^{T}p(\boldsymbol \theta_t | \boldsymbol \alpha)
			
 
				+\prod_{k=1}^{K}p(\boldsymbol \beta_k | \boldsymbol \eta) 
			
 
				+(\prod_{n=1}^{N}P(w_{t,n} | z_{t,n}, \boldsymbol \beta_k)P( z_{t,n} | \boldsymbol \theta_t))
			
 
				+$$
			
 
				+
			
 
				+
			
 
				+
			
 
				+[解析]：此式表示LDA模型下根据参数$\alpha, \eta$生成文档$W$的概率。其中$z, \beta, \theta$是生成过程的中间变量。具体的生成步骤可见概率图14.12，图中的箭头和式14.41中的条件概率中的因果项目一一对应。这里共有三个连乘符号，表示三个相互独立的概率关系。第一个连乘表示T个文档每个文档的话题分布都是相互独立的。第二个连乘表示K个话题每个话题下单词的分布是相互独立的。最后一个连乘号表示每篇文档中的所有单词的生成是相互独立的。
			
 
				+
			
 
				+## 14.42
			
 
				+
			
 
				+$$
			
 
				+p\left(\Theta_{t} | \boldsymbol{\alpha}\right)=\frac{\Gamma\left(\sum_{k} \alpha_{k}\right)}{\prod_{k} \Gamma\left(\alpha_{k}\right)} \prod_{k} \Theta_{t, k}^{\alpha_{k}-1}
			
 
				+$$
			
 
				+
			
 
				+[解析]：参见附录$C1.6$。
			
 
				+
			
 
				+## 14.43
			
 
				+
			
 
				+$$
			
 
				+L L(\boldsymbol{\alpha}, \boldsymbol{\eta})=\sum_{t=1}^{T} \ln p\left(\boldsymbol{w}_{t} | \boldsymbol{\alpha}, \boldsymbol{\eta}\right)
			
 
				+$$
			
 
				+
			
 
				+[解析]：对数似然函数。参见$7.2$极大似然估计。
			
 
				+
			
 
				+## 14.44
			
 
				+
			
 
				+$$
			
 
				+p(\mathbf{z}, \boldsymbol{\beta}, \Theta | \mathbf{W}, \boldsymbol{\alpha}, \boldsymbol{\eta})=\frac{p(\mathbf{W}, \mathbf{z}, \boldsymbol{\beta}, \boldsymbol{\Theta} | \boldsymbol{\alpha}, \boldsymbol{\eta})}{p(\mathbf{W} | \boldsymbol{\alpha}, \boldsymbol{\eta})}
			
 
				+$$
			
 
				+
			
 
				+[解析]：分母为边际分布，需要对变量$\mathbf{z}, \boldsymbol{\beta}, \Theta$ 积分或者求和，所以往往难以直接求解。