5 年之前 · 6a75fb9142
--- a/docs/chapter6/chapter6.md
+++ b/docs/chapter6/chapter6.md
@@ -251,11 +251,15 @@ $$\begin{aligned}
 
															 \end{aligned}$$
														
 
															 将其代入上式可得
														
 
															 $$\begin{aligned}
														
 
															-\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b}^{\phi} \boldsymbol{w}&=\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\cdot\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}} \phi(\boldsymbol{x})-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \phi(\boldsymbol{x})\right)\cdot\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}} \phi(\boldsymbol{x})^{\mathrm{T}}-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \phi(\boldsymbol{x})^{\mathrm{T}}\right)\cdot \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) \\
														
 
															-&=\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}}\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x})-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\phi(\boldsymbol{x})\right)\cdot\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}} \sum_{i=1}^{m} \alpha_{i} \phi(\boldsymbol{x})^{\mathrm{T}}\phi\left(\boldsymbol{x}_{i}\right)-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \sum_{i=1}^{m} \alpha_{i} \phi(\boldsymbol{x})^{\mathrm{T}}\phi\left(\boldsymbol{x}_{i}\right)\right) \\
														
 
															+\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b}^{\phi} \boldsymbol{w}=&\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\cdot\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}} \phi(\boldsymbol{x})-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \phi(\boldsymbol{x})\right)\cdot\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}} \phi(\boldsymbol{x})^{\mathrm{T}}-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \phi(\boldsymbol{x})^{\mathrm{T}}\right)\cdot \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) \\
														
 
															+=&\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}}\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x})-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\phi(\boldsymbol{x})\right)\\
														
 
															+&\cdot\left(\frac{1}{m_{1}} \sum_{\boldsymbol{x} \in X_{1}} \sum_{i=1}^{m} \alpha_{i} \phi(\boldsymbol{x})^{\mathrm{T}}\phi\left(\boldsymbol{x}_{i}\right)-\frac{1}{m_{0}} \sum_{\boldsymbol{x} \in X_{0}} \sum_{i=1}^{m} \alpha_{i} \phi(\boldsymbol{x})^{\mathrm{T}}\phi\left(\boldsymbol{x}_{i}\right)\right) \\
														
 
															 \end{aligned}$$
														
 
															 由于$\kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)=\phi(\boldsymbol{x}_i)^{\mathrm{T}}\phi(\boldsymbol{x})$为标量，所以其转置等于本身，也即$\kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)=\phi(\boldsymbol{x}_i)^{\mathrm{T}}\phi(\boldsymbol{x})=\left(\phi(\boldsymbol{x}_i)^{\mathrm{T}}\phi(\boldsymbol{x})\right)^{\mathrm{T}}=\phi(\boldsymbol{x})^{\mathrm{T}}\phi(\boldsymbol{x}_i)=\kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)^{\mathrm{T}}$，将其代入上式可得
														
 
															-$$\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b}^{\phi} \boldsymbol{w}=\left(\frac{1}{m_{1}} \sum_{i=1}^{m}\sum_{\boldsymbol{x} \in X_{1}}\alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)-\frac{1}{m_{0}} \sum_{i=1}^{m} \sum_{\boldsymbol{x} \in X_{0}}  \alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)\right)\cdot\left(\frac{1}{m_{1}} \sum_{i=1}^{m}\sum_{\boldsymbol{x} \in X_{1}} \alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)-\frac{1}{m_{0}}\sum_{i=1}^{m}  \sum_{\boldsymbol{x} \in X_{0}} \alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)\right)$$
														
 
															+$$\begin{aligned}
														
 
															+\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b}^{\phi} \boldsymbol{w}=&\left(\frac{1}{m_{1}} \sum_{i=1}^{m}\sum_{\boldsymbol{x} \in X_{1}}\alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)-\frac{1}{m_{0}} \sum_{i=1}^{m} \sum_{\boldsymbol{x} \in X_{0}}  \alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)\right)\\
														
 
															+&\cdot\left(\frac{1}{m_{1}} \sum_{i=1}^{m}\sum_{\boldsymbol{x} \in X_{1}} \alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)-\frac{1}{m_{0}}\sum_{i=1}^{m}  \sum_{\boldsymbol{x} \in X_{0}} \alpha_{i} \kappa\left(\boldsymbol{x}_i, \boldsymbol{x}\right)\right)
														
 
															+\end{aligned}$$
														
 
															 令$\boldsymbol{\alpha}=(\alpha_1;\alpha_2;...;\alpha_m)^{\mathrm{T}}\in \mathbb{R}^{m\times 1}$，同时结合公式(6.66)的解析中得到的$\hat{\boldsymbol{\mu}}_{0},\hat{\boldsymbol{\mu}}_{1}$的一般形式，上式可以化简为
														
 
															 $$\begin{aligned}
														
 
															 \boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b}^{\phi} \boldsymbol{w}&=\left(\boldsymbol{\alpha}^{\mathrm{T}}\hat{\boldsymbol{\mu}}_{1}-\boldsymbol{\alpha}^{\mathrm{T}}\hat{\boldsymbol{\mu}}_{0}\right)\cdot\left(\hat{\boldsymbol{\mu}}_{1}^{\mathrm{T}}\boldsymbol{\alpha}-\hat{\boldsymbol{\mu}}_{0}^{\mathrm{T}}\boldsymbol{\alpha}\right)\\
														
@@ -284,9 +288,10 @@ $$\begin{aligned}
 
															 \end{aligned}$$
														
 
															 再将此式代回$\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b}^{\phi} \boldsymbol{w}$可得
														
 
															 $$\begin{aligned}
														
 
															-\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w}^{\phi} \boldsymbol{w}&=\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\cdot\mathbf{S}_{w}^{\phi}\cdot \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) \\
														
 
															-&=\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\cdot\left(\sum_{\boldsymbol{x} \in  D}\phi(\boldsymbol{x})\phi(\boldsymbol{x})^{\mathrm{T}}-m_0\boldsymbol{\mu}_{0}^{\phi}\left(\boldsymbol{\mu}_{0}^{\phi}\right)^{\mathrm{T}}-m_1\boldsymbol{\mu}_{1}^{\phi}\left(\boldsymbol{\mu}_{1}^{\phi}\right)^{\mathrm{T}}\right)\cdot \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) \\
														
 
															-&=\sum_{i=1}^{m}\sum_{j=1}^{m}\sum_{\boldsymbol{x} \in  D}\alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\phi(\boldsymbol{x})\phi(\boldsymbol{x})^{\mathrm{T}}\alpha_{j} \phi\left(\boldsymbol{x}_{j}\right)-\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}m_0\boldsymbol{\mu}_{0}^{\phi}\left(\boldsymbol{\mu}_{0}^{\phi}\right)^{\mathrm{T}}\alpha_{j} \phi\left(\boldsymbol{x}_{j}\right)-\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}m_1\boldsymbol{\mu}_{1}^{\phi}\left(\boldsymbol{\mu}_{1}^{\phi}\right)^{\mathrm{T}}\alpha_{j} \phi\left(\boldsymbol{x}_{j}\right) \\
														
 
															+\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w}^{\phi} \boldsymbol{w}=&\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\cdot\mathbf{S}_{w}^{\phi}\cdot \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) \\
														
 
															+=&\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\cdot\left(\sum_{\boldsymbol{x} \in  D}\phi(\boldsymbol{x})\phi(\boldsymbol{x})^{\mathrm{T}}-m_0\boldsymbol{\mu}_{0}^{\phi}\left(\boldsymbol{\mu}_{0}^{\phi}\right)^{\mathrm{T}}-m_1\boldsymbol{\mu}_{1}^{\phi}\left(\boldsymbol{\mu}_{1}^{\phi}\right)^{\mathrm{T}}\right)\cdot \sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) \\
														
 
															+=&\sum_{i=1}^{m}\sum_{j=1}^{m}\sum_{\boldsymbol{x} \in  D}\alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}\phi(\boldsymbol{x})\phi(\boldsymbol{x})^{\mathrm{T}}\alpha_{j} \phi\left(\boldsymbol{x}_{j}\right)-\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}m_0\boldsymbol{\mu}_{0}^{\phi}\left(\boldsymbol{\mu}_{0}^{\phi}\right)^{\mathrm{T}}\alpha_{j} \phi\left(\boldsymbol{x}_{j}\right)\\
														
 
															+&-\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}}m_1\boldsymbol{\mu}_{1}^{\phi}\left(\boldsymbol{\mu}_{1}^{\phi}\right)^{\mathrm{T}}\alpha_{j} \phi\left(\boldsymbol{x}_{j}\right) \\
														
 
															 \end{aligned}$$
														
 
															 其中，第1项可化简为
														
 
															 $$\begin{aligned}
														
--- a/docs/chapter7/chapter7.md
+++ b/docs/chapter7/chapter7.md
@@ -1,19 +1,3 @@
 
															-## 7.1
														
 
															-$$R\left(c_{i} | \boldsymbol{x}\right)=\sum_{j=1}^{N} \lambda_{i j} P\left(c_{j} | \boldsymbol{x}\right)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.2
														
 
															-$$R(h)=\mathbb{E}_{\boldsymbol{x}}[R(h(\boldsymbol{x}) | \boldsymbol{x})]$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.3
														
 
															-$$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \min } R(c | \boldsymbol{x})$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.4
														
 
															-$$\lambda_{i j}=\left\{\begin{array}{ll}0, & \text { if } i=j \\ 1, & \text { otherwise }\end{array}\right.$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 7.5
														
 
															 $$R(c|\boldsymbol x)=1−P(c|\boldsymbol x)$$
														
 
															 [推导]：由公式(7.1)和公式(7.4)可得：
														
@@ -26,29 +10,6 @@ $$R(c_i|\boldsymbol x)=1-P(c_i|\boldsymbol x)$$
 
															 $$h^{*}(\boldsymbol{x})=\underset{c \in \mathcal{Y}}{\arg \max } P(c | \boldsymbol{x})$$
														
 
															 [推导]：将公式(7.5)带入公式(7.3)即可推得此式。
														
 
															-## 7.7
														
 
															-$$P(c | \boldsymbol{x})=\frac{P(\boldsymbol{x}, c)}{P(\boldsymbol{x})}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.8
														
 
															-$$P(c | \boldsymbol{x})=\frac{P(c)P(\boldsymbol{x} | c)}{P(\boldsymbol{x})}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.9
														
 
															-$$P\left(D_{c} | \boldsymbol{\theta}_{c}\right)=\prod_{\boldsymbol{x} \in D_{c}} P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.10
														
 
															-$$\begin{aligned} 
														
 
															-LL\left(\boldsymbol{\theta}_{c}\right) &=\log P\left(D_{c} | \boldsymbol{\theta}_{c}\right) \\ 
														
 
															-&=\sum_{\boldsymbol{x} \in D_{c}} \log P\left(\boldsymbol{x} | \boldsymbol{\theta}_{c}\right) 
														
 
															-\end{aligned}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.11
														
 
															-$$\hat{\boldsymbol{\theta}}_{c}=\underset{\boldsymbol{\theta}_{c}}{\arg \max } LL\left(\boldsymbol{\theta}_{c}\right)$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 7.12
														
 
															 $$\hat{\boldsymbol{\mu}}_{c}=\frac{1}{\left|D_{c}\right|} \sum_{\boldsymbol{x} \in D_{c}} \boldsymbol{x}$$
														
 
															 [推导]：参见公式(7.13)
														
@@ -87,19 +48,11 @@ $$\frac{n}{2}\log|\boldsymbol{\Sigma}|+\frac{1}{2}\operatorname{tr}\left[\boldsy
 
															 当且仅当$\boldsymbol{\Sigma}=\frac{1}{n}\mathbf{B}$时等号成立。所以根据此引理可知，当且仅当$\boldsymbol{\Sigma}_c=\frac{1}{n}\sum_{i=1}^{n}(\boldsymbol{x}_i-\bar{\boldsymbol{x}})(\boldsymbol{x}_i-\bar{\boldsymbol{x}})^{\mathrm{T}}$
														
 
															 时，上述参数求解公式中$\arg \min$后面的式子取到最小值，那么此时的$\boldsymbol{\Sigma}_c$即为我们想要求解的$\hat{\boldsymbol{\Sigma}}_{c}$。
														
 
															-## 7.17
														
 
															-$$P\left(x_{i} | c\right)=\frac{\left|D_{c, x_{i}}\right|}{\left|D_{c}\right|}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.18
														
 
															-$$p\left(x_{i} | c\right)=\frac{1}{\sqrt{2 \pi} \sigma_{c, i}} \exp \left(-\frac{\left(x_{i}-\mu_{c, i}\right)^{2}}{2 \sigma_{c, i}^{2}}\right)$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 7.19
														
 
															 $$\hat{P}(c)=\frac{\left|D_{c}\right|+1}{|D|+N}$$
														
 
															 [推导]：从贝叶斯估计（参见附录①）的角度来说，拉普拉斯修正就等价于先验概率为Dirichlet分布（参见附录③）的后验期望值估计。为了接下来的叙述方便，我们重新定义一下相关数学符号。设包含$m$个独立同分布样本的训练集为$D$，$D$中可能的类别数为$k$，其类别的具体取值范围为$\{c_1,c_2,...,c_k\}$。若令随机变量$C$表示样本所属的类别，且$C$取到每个值的概率分别为$p(C=c_1)=\theta_1,p(C=c_2)=\theta_2,...,p(C=c_k)=\theta_k$，那么显然$C$服从参数为$\boldsymbol{\theta}=(\theta_1,\theta_2,...,\theta_k)\in\mathbb{R}^{k}$的Categorical分布（参见附录②），其概率质量函数为
														
 
															 $$p(C=c_i)=p(c_i)=\theta_1^{\mathbb{I}(C=c_1)}\ldots\theta_i^{\mathbb{I}(C=c_i)}\ldots\theta_k^{\mathbb{I}(C=c_k)}$$
														
 
															-其中$p(c_i)=\theta_i$就是公式(7.9)所要求解的$\hat{P}(c)$，下面我们用贝叶斯估计中的后验期望值估计来估计$\theta_i$。根据贝叶斯估计的原理可知，在进行参数估计之前，需要先主观预设一个先验概率$p(\boldsymbol{\theta})$，通常为了方便计算后验概率$p(\boldsymbol{\theta}|D)$，我们会用似然函数$p(D|\boldsymbol{\theta})$的共轭先验<sup>[6]</sup>作为我们的先验概率<sup>[7]</sup>。显然，此时的似然函数$p(D|\boldsymbol{\theta})$是一个基于Categorical分布的似然函数，而Categorical分布的共轭先验为Dirichlet分布，所以此时只需要预设先验概率$p(\boldsymbol{\theta})$为Dirichlet分布，然后使用后验期望值估计就能估计出$\theta_i$。具体地，记$D$中样本类别取值为$c_i$的样本个数为$y_i$，则似然函数$p(D|\boldsymbol{\theta})$可展开为
														
 
															+其中$p(c_i)=\theta_i$就是公式(7.9)所要求解的$\hat{P}(c)$，下面我们用贝叶斯估计中的后验期望值估计来估计$\theta_i$。根据贝叶斯估计的原理可知，在进行参数估计之前，需要先主观预设一个先验概率$p(\boldsymbol{\theta})$，通常为了方便计算<sup>[7]</sup>后验概率$p(\boldsymbol{\theta}|D)$，我们会用似然函数$p(D|\boldsymbol{\theta})$的共轭先验<sup>[6]</sup>作为我们的先验概率。显然，此时的似然函数$p(D|\boldsymbol{\theta})$是一个基于Categorical分布的似然函数，而Categorical分布的共轭先验为Dirichlet分布，所以此时只需要预设先验概率$p(\boldsymbol{\theta})$为Dirichlet分布，然后使用后验期望值估计就能估计出$\theta_i$。具体地，记$D$中样本类别取值为$c_i$的样本个数为$y_i$，则似然函数$p(D|\boldsymbol{\theta})$可展开为
														
 
															 $$p(D|\boldsymbol{\theta})=\theta_1^{y_1}\ldots\theta_k^{y_k}=\prod_{i=1}^{k}\theta_i^{y_i}$$
														
 
															 那么后验概率$p(D|\boldsymbol{\theta})$为
														
 
															 $$\begin{aligned}
														
@@ -145,18 +98,6 @@ $$\begin{aligned}
 
															 $$\hat{P}\left(x_{i} | c\right)=\frac{\left|D_{c, x_{i}}\right|+1}{\left|D_{c}\right|+N_{i}}$$
														
 
															 [推导]：参见公式(7.19)
														
 
															-## 7.21
														
 
															-$$P(c | \boldsymbol{x}) \propto P(c) \prod_{i=1}^{d} P\left(x_{i} | c, p a_{i}\right)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.22
														
 
															-$$I\left(x_{i}, x_{j} | y\right)=\sum_{x_{i}, x_{j} ; c \in \mathcal{Y}} P\left(x_{i}, x_{j} | c\right) \log \frac{P\left(x_{i}, x_{j} | c\right)}{P\left(x_{i} | c\right) P\left(x_{j} | c\right)}$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.23
														
 
															-$$P(c|\boldsymbol x)\propto{\sum_{i=1 \atop |D_{x_{i}}|\geq m'}^{d}}P(c,x_{i})\prod_{j=1}^{d}P(x_j|c,x_i)$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 7.24
														
 
															 $$\hat{P}\left(c, x_{i}\right)=\frac{\left|D_{c, x_{i}}\right|+1}{|D|+N_{i}}$$
														
 
															 [推导]：参见公式(7.19)
														
@@ -165,10 +106,6 @@ $$\hat{P}\left(c, x_{i}\right)=\frac{\left|D_{c, x_{i}}\right|+1}{|D|+N_{i}}$$
 
															 $$\hat{P}\left(x_{j} | c, x_{i}\right)=\frac{\left|D_{c, x_{i}, x_{j}}\right|+1}{\left|D_{c, x_{i}}\right|+N_{j}}$$
														
 
															 [推导]：参见公式(7.20)
														
 
															-## 7.26
														
 
															-$$P_{B}\left(x_{1}, x_{2}, \ldots, x_{d}\right)=\prod_{i=1}^{d} P_{B}\left(x_{i} | \pi_{i}\right)=\prod_{i=1}^{d} \theta_{x_{i} | \pi_{i}}$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 7.27
														
 
															 $$\begin{aligned} 
														
 
															 P\left(x_{1}, x_{2}\right) &=\sum_{x_{4}} P\left(x_{1}, x_{2}, x_{4}\right) \\ 
														
@@ -189,46 +126,10 @@ P(y,z|x)&=\frac{P(x,y,z)}{P(x)} \\
 
															 &=P(z|x)P(y|x) \\
														
 
															 \end{aligned}$$
														
 
															-## 7.28
														
 
															-$$s(B|D)=f(\theta)|B|-LL(B|D)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.29
														
 
															-$$LL(B|D)=\sum_{i=1}^{m}\log P_{B}(\boldsymbol{x}_i)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.30
														
 
															-$$\operatorname{AIC}(B|D)=|B|-LL(B|D)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.31
														
 
															-$$\operatorname{BIC}(B|D)=\frac{\log m}{2}|B|-LL(B|D)$$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.32
														
 
															-$$\theta_{x_i|\pi_i}=\hat{P}_D(x_i|\pi_i) $$
														
 
															-[解析]：略
														
 
															-
														
 
															-## 7.33
														
 
															-$$P(\mathbf{Q}=\boldsymbol{q}|\mathbf{E}=\boldsymbol{e})\simeq\frac{n_q}{T}$$
														
 
															-[解析]：略
														
 
															-
														
 
															 ## 7.34
														
 
															 $$LL(\mathbf{\Theta}|\mathbf{X},\mathbf{Z})=\ln P(\mathbf{X},\mathbf{Z}|\mathbf{\Theta})$$
														
 
															 [解析]：EM算法这一节建议以李航老师的《统计学习方法》为主，西瓜书为辅进行学习。
														
 
															-## 7.35
														
 
															-$$LL(\mathbf{\Theta}|\mathbf{X})=\ln P(\mathbf{X}|\mathbf{\Theta})=\ln\sum_{\mathbf{Z}}P(\mathbf{X},\mathbf{Z}|\mathbf{\Theta})$$
														
 
															-[解析]：EM算法这一节建议以李航老师的《统计学习方法》为主，西瓜书为辅进行学习。
														
 
															-
														
 
															-## 7.36
														
 
															-$$Q(\mathbf{\Theta}|\mathbf{\Theta}^t)=\mathbb{E}_{\mathbf{Z}|\mathbf{X},\mathbf{\Theta}^t}LL(\mathbf{\Theta}|\mathbf{X},\mathbf{Z})$$
														
 
															-[解析]：EM算法这一节建议以李航老师的《统计学习方法》为主，西瓜书为辅进行学习。
														
 
															-
														
 
															-## 7.37
														
 
															-$$\mathbf{\Theta}^{t+1}=\underset{\mathbf{\Theta}}{\arg \max }Q(\mathbf{\Theta}|\mathbf{\Theta}^t)$$
														
 
															-[解析]：EM算法这一节建议以李航老师的《统计学习方法》为主，西瓜书为辅进行学习。
														
 
															-
														
 
															 ## 附录
														
 
															 ### ①贝叶斯估计<sup>[1]</sup>
														
 
															 贝叶斯学派视角下的一类点估计法称为贝叶斯估计，常用的贝叶斯估计有最大后验估计（Maximum A Posteriori Estimation，简称MAP）、后验中位数估计和后验期望值估计这3种参数估计方法，下面给出这3种方法的具体定义。设总体的概率质量函数（若总体的分布为连续型时则改为概率密度函数，此处以离散型为例）为$p(x|\theta)$，从该总体中抽取出的$n$个独立同分布的样本构成的样本集为$D=\{x_1,x_2,...,x_n\}$，则根据贝叶斯公式可得在给定样本集$D$的条件下，$\theta$的条件概率为