浏览代码

format update

archwalker 5 年之前
父节点
当前提交
cc07fb44e7
共有 4 个文件被更改,包括 36 次插入40 次删除
  1. 30 5
      docs/chapter13/chapter13.md
  2. 4 10
      docs/chapter14/chapter14.md
  3. 0 4
      docs/chapter16/chapter16.md
  4. 2 21
      docs/chapter9/chapter9.md

+ 30 - 5
docs/chapter13/chapter13.md

@@ -12,7 +12,7 @@ $$
 \begin{aligned} f(\boldsymbol{x}) &=\underset{j \in \mathcal{Y}}{\arg \max } p(y=j | \boldsymbol{x}) \\ &=\underset{j \in \mathcal{Y}}{\arg \max } \sum_{i=1}^{N} p(y=j, \Theta=i | \boldsymbol{x}) \\ &=\underset{j \in \mathcal{Y}}{\arg \max } \sum_{i=1}^{N} p(y=j | \Theta=i, \boldsymbol{x}) \cdot p(\Theta=i | \boldsymbol{x}) \end{aligned}
 $$
 
-[解析]:从公式第 1 行到第 2 行是对概率进行边缘化(marginalization);通过引入$\Theta$并对其求和 $$\sum_{i=1}^N$$以抵消引入的影响。从公式第 2 行到第 3 行推导如下
+[解析]:从公式第 1 行到第 2 行是对概率进行边缘化(marginalization);通过引入$\Theta$并对其求和 $\sum_{i=1}^N$以抵消引入的影响。从公式第 2 行到第 3 行推导如下
 $$
 \begin{aligned}p(y=j, \Theta=i | \boldsymbol{x}) &=\frac{p(y=j, \Theta=i, \boldsymbol{x})}{p(\boldsymbol{x})} \\&=\frac{p(y=j, \Theta=i, \boldsymbol{x})}{p(\Theta=i, \boldsymbol{x})} \cdot \frac{p(\Theta=i, \boldsymbol{x})}{p(\boldsymbol{x})} \\&=p(y=j | \Theta=i, \boldsymbol{x}) \cdot p(\Theta=i | \boldsymbol{x})\end{aligned}
 $$
@@ -42,7 +42,7 @@ $$
 $$
 p(y=j | \Theta=i, \boldsymbol{x})=\left\{\begin{array}{ll}1, & i=j \\0, & i \neq j\end{array}\right.
 $$
-可知,这项限定了样本$$x_j$$只可能来自于$$y_j$$所对应的高斯分布。
+可知,这项限定了样本$x_j$$只可能来自于$$y_j$所对应的高斯分布。
 
 ## 13.5
 
@@ -140,7 +140,7 @@ $$
 $$
 
 
-类似于式 9.37,对$\alpha_i$求偏导。对于$$LL(D_u)$$,求导结果与式 9.37 的推导过程一样
+类似于式 9.37,对$\alpha_i$求偏导。对于$LL(D_u)$,求导结果与式 9.37 的推导过程一样
 $$
 \frac{\partial L L\left(D_{u}\right)}{\partial \alpha_{i}}=\sum_{\boldsymbol{x}_{j} \in D_{u}} \frac{1}{\sum_{s=1}^{N} \alpha_{s} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{s}, \boldsymbol{\Sigma}_{s}\right)} \cdot p\left(\boldsymbol{x}_{j} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)
 $$
@@ -300,6 +300,24 @@ $$
 
 ## 13.14
 
+$$
+\begin{aligned}
+E(f) &=\left(\boldsymbol{f}_{l}^{\mathrm{T}} \boldsymbol{f}_{u}^{\mathrm{T}}\right)\left(\left[\begin{array}{ll}
+\mathbf{D}_{l l} & \mathbf{0}_{l u} \\
+\mathbf{0}_{u l} & \mathbf{D}_{u u}
+\end{array}\right]-\left[\begin{array}{ll}
+\mathbf{W}_{l l} & \mathbf{W}_{l u} \\
+\mathbf{W}_{u l} & \mathbf{W}_{u u}
+\end{array}\right]\right)\left[\begin{array}{l}
+\boldsymbol{f}_{l} \\
+\boldsymbol{f}_{u}
+\end{array}\right] \\
+&=\boldsymbol{f}_{l}^{\mathrm{T}}\left(\mathbf{D}_{l l}-\mathbf{W}_{l l}\right) \boldsymbol{f}_{l}-2 \boldsymbol{f}_{u}^{\mathrm{T}} \mathbf{W}_{u l} \boldsymbol{f}_{l}+\boldsymbol{f}_{u}^{\mathrm{T}}\left(\mathbf{D}_{u u}-\mathbf{W}_{u u}\right) \boldsymbol{f}_{u}
+\end{aligned}
+$$
+
+
+
 [解析]:参考 13.13
 
 ## 13.15
@@ -347,7 +365,14 @@ $$
 \end{aligned}
 $$
 
-[解析]:第一项到第二项是根据矩阵乘法逆的定义:$$(\mathbf{A}\mathbf{B})^{-1}=\mathbf{B}^{-1}\mathbf{A}^{-1}$$,在这个式子中$$\mathbf{P}_{u u}=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u u}, \mathbf{P}_{ul}=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u l}$$均可以根据$\mathbf{W}_{ij}$计算得到,因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
+[解析]:第一项到第二项是根据矩阵乘法逆的定义:$(\mathbf{A}\mathbf{B})^{-1}=\mathbf{B}^{-1}\mathbf{A}^{-1}$,在这个式子中​
+$$
+\begin{aligned}
+\mathbf{P}_{u u}&=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u u}\\
+\mathbf{P}_{ul}&=\mathbf{D}_{u u}^{-1} \mathbf{W}_{u l}
+\end{aligned}
+$$
+均可以根据$\mathbf{W}_{ij}$计算得到,因此可以通过标记$\mathbf{f}_l$计算未标记数据的标签$\mathbf{f}_u$
 
 ## 13.20
 
@@ -378,7 +403,7 @@ $$
 $$
 \mathbf{F}^{*}=\lim _{t \rightarrow \infty}\mathbf{F}(t)=\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t} \mathbf{Y}+\lim _{t \rightarrow \infty}(1-\alpha)\left(\sum_{i=0}^{t-1}(\alpha \mathbf{S})^{i}\right) \mathbf{Y}
 $$
-其中第一项由于$\mathbf{S}=\mathbf{D}^{-\frac{1}{2}} \mathbf{W} \mathbf{D}^{-\frac{1}{2}}$的特征值介于[-1, 1]之间(这里省略详细推导,可以参见 https://en.wikipedia.org/wiki/Laplacian_matrix 其中对称拉普拉斯矩阵的特征值介于 0 和 2 之间),而$\alpha\in(0,1)$,所以$$\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}=0$$,第二项由等比数列公式
+其中第一项由于$\mathbf{S}=\mathbf{D}^{-\frac{1}{2}} \mathbf{W} \mathbf{D}^{-\frac{1}{2}}$的特征值介于[-1, 1]之间(这里省略详细推导,可以参见 https://en.wikipedia.org/wiki/Laplacian_matrix 其中对称拉普拉斯矩阵的特征值介于 0 和 2 之间),而$\alpha\in(0,1)$,所以$\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}=0$,第二项由等比数列公式
 $$
 \lim _{t \rightarrow \infty} \sum_{i=0}^{t-1}(\alpha \mathbf{S})^{i}=\frac{\mathbf{I}-\lim _{t \rightarrow \infty}(\alpha \mathbf{S})^{t}}{\mathbf{I}-\alpha \mathbf{S}}=\frac{\mathbf{I}}{\mathbf{I}-\alpha \mathbf{S}}=(\mathbf{I}-\alpha \mathbf{S})^{-1}
 $$

+ 4 - 10
docs/chapter14/chapter14.md

@@ -30,7 +30,7 @@ $$
 P\left(x_{A}, x_{B}, x_{C}\right)=\frac{1}{Z} \psi_{A C}\left(x_{A}, x_{C}\right) \psi_{B C}\left(x_{B}, x_{C}\right)
 $$
 
-[解析]:将图$$14.3$$分解成$x_{A}, x_{C}$ 和 $x_{B}, x_{C}$ 两个团。
+[解析]:将图$14.3$分解成$x_{A}, x_{C}$ 和 $x_{B}, x_{C}$ 两个团。
 
 ## 14.5
 
@@ -177,7 +177,6 @@ $$
 \begin{aligned}
 \pi T=\pi
 \end{aligned}
-\tag{1}
 $$
 其中, $\pi$是一个是一个$n$维向量,代表$s_1,s_2,..,s_n$对应的概率. 反过来, 如果我们希望采样得到符合某个分布$\pi$的一系列变量$x_1,x_2,..,x_t$, 应当采用哪一个转移矩阵$T(n\times n)$呢?
 
@@ -186,16 +185,14 @@ $$
 \begin{aligned}
 \pi (i)T(i,j)=\pi (j)T(j,i)
 \end{aligned}
-\tag{2}
 $$
 即公式$14.26$,这里采用的符号与西瓜书略有区别以便于理解.  证明如下
 $$
 \begin{aligned}
 \pi T(j) = \sum _i \pi (i)T(i,j) = \sum _i \pi (j)T(j,i) = \pi(j)
 \end{aligned} 
-\tag{3}
 $$
-假设采样得到的序列为$x_1,x_2,..,x_{t-1},x_t$,则可以使用$MH$算法来使得$x_{t-1}$(假设为状态$s_i$)转移到$x_t$(假设为状态$s_j$)的概率满足式$(2)$
+假设采样得到的序列为$x_1,x_2,..,x_{t-1},x_t$,则可以使用$MH$算法来使得$x_{t-1}$(假设为状态$s_i$)转移到$x_t$(假设为状态$s_j$)的概率满足式。
 
 ## 14.27
 
@@ -215,22 +212,19 @@ $$
   A(x^* | x^{t-1}) &= p(x^*)Q(x^{t-1} | x^*)  \\
   A(x^{t-1} | x^*) &= p(x^{t-1})Q(x^* | x^{t-1})
  \end{aligned} 
- \tag{4}
 $$
-即可满足式$14.26$,但是实际上等号右边的数值可能比较小,比如各为0.1和0.2,那么好不容易才到的样本只有百分之十几得到利用,所以不妨将接受率设为0.5和1,则细致平稳分布条件依然满足,样本利用率大大提高, 所以可以将$(4)$改进为
+即可满足式$14.26$,但是实际上等号右边的数值可能比较小,比如各为0.1和0.2,那么好不容易才到的样本只有百分之十几得到利用,所以不妨将接受率设为0.5和1,则细致平稳分布条件依然满足,样本利用率大大提高, 所以可以改进为
 $$
 \begin{aligned} 
 A(x^* | x^{t-1}) &=  \frac{p(x^*)Q(x^{t-1} | x^*)}{norm}  \\  
 A(x^{t-1} | x^*) &= \frac{p(x^{t-1})Q(x^* | x^{t-1}) }{norm}
-\end{aligned}  
-\tag{5}
+\end{aligned} 
 $$
 其中
 $$
 \begin{aligned} 
 norm = \max\left (p(x^{t-1})Q(x^* | x^{t-1}),p(x^*)Q(x^{t-1} | x^*) \right )
 \end{aligned}  
-\tag{6}
 $$
 即教材的$14.28$。
 

+ 0 - 4
docs/chapter16/chapter16.md

@@ -23,10 +23,6 @@ $$
 P(k)=\frac{e^{\frac{Q(k)}{\tau }}}{\sum_{i=1}^{K}e^{\frac{Q(i)}{\tau}}}
 $$
 
-$$
-\tau越小则平均奖赏高的摇臂被选取的概率越高
-$$
-
 [解析]:
 $$
 P(k)=\frac{e^{\frac{Q(k)}{\tau }}}{\sum_{i=1}^{K}e^{\frac{Q(i)}{\tau}}}\propto e^{\frac{Q(k)}{\tau }}\propto\frac{Q(k)}{\tau }\propto\frac{1}{\tau}

+ 2 - 21
docs/chapter9/chapter9.md

@@ -6,7 +6,6 @@ $$
 
 [解析]:给定两个集合$A$和$B$,则Jaccard系数定义为如下公式
 
-
 $$
 JC=\frac{|A\bigcap B|}{|A\bigcup B|}=\frac{|A\bigcap B|}{|A|+|B|-|A\bigcap B|}
 $$
@@ -70,7 +69,7 @@ $$
 \operatorname{avg}(C)=\frac{2}{|C|(|C|-1)} \sum_{1 \leqslant i<j \leqslant|C|} \operatorname{dist}\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)
 $$
 
-[解析]簇内距离的定义式:求和号左边是$(x_i, x_j)$组合个数的倒数,求和号右边是这些组合的距离和,所以两者相乘定义为平均距离。
+[解析]簇内距离的定义式:求和号左边是$(x_i, x_j)$组合个数的倒数,求和号右边是这些组合的距离和,所以两者相乘定义为平均距离。
 
 ## 9.33
 $$
@@ -204,7 +203,7 @@ $$
 \sum_{j=1}^m\sum_{i=1}^k\frac{\alpha_{i}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{i},\mathbf\Sigma_{i})}{\sum_{l=1}^k\alpha_{l}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{l},\mathbf\Sigma_{l})}&=-\lambda\sum_{i=1}^k\alpha_{i}
 \end{aligned}
 $$
-由$$m=-\lambda$$,
+由$$m=-\lambda$$
 $$
 \sum_{j=1}^m\frac{\alpha_{i}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{i},\mathbf\Sigma_{i})}{\sum_{l=1}^k\alpha_{l}\cdot p(\boldsymbol x_{j}|\boldsymbol\mu_{l},\mathbf\Sigma_{l})}=-\lambda\alpha_{i}=m\alpha_{i}
 $$
@@ -219,22 +218,4 @@ $$
 
 此即为公式(9.38)
 
-## 附录
-参考公式
-$$
-\frac{\partial\boldsymbol x^TB\boldsymbol x}{\partial\boldsymbol x}=\left(B+B^T\right)\boldsymbol x 
-$$
-$$
-\frac{\partial}{\partial A}ln|A|=\left(A^{-1}\right)^T
-$$
-$$
-\frac{\partial}{\partial x}\left(A^{-1}\right)=-A^{-1}\frac{\partial A}{\partial x}A^{-1}
-$$
-
-## 参考文献
-[1] Meilă, Marina. "Comparing clusterings—an information based distance." Journal of multivariate analysis 98.5 (2007): 873-895.<br>
-[2] Halkidi, Maria, Yannis Batistakis, and Michalis Vazirgiannis. "On clustering validation techniques." Journal of intelligent information systems 17.2-3 (2001): 107-145.<br>
-[3] Petersen, K. B. & Pedersen, M. S. *The Matrix Cookbook*.<br>
-[4] Bishop, C. M. (2006). *Pattern Recognition and Machine Learning*. Springer.<br>
-