5 anos atrás · 8d3d120d80
--- a/docs/chapter3/chapter3.md
+++ b/docs/chapter3/chapter3.md
@@ -98,14 +98,14 @@ $$\begin{aligned}
 
				 \end{aligned}$$
			
 
				 
			
 
				 ## 3.32
			
 
				-$$J=\cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}$$
			
 
				+$$J=\cfrac{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w}$$
			
 
				 [推导]：
			
 
				 $$\begin{aligned}
			
 
				-	J &= \cfrac{\|\boldsymbol w^{\mathrm{T}}\mu_0-\boldsymbol w^{\mathrm{T}}\mu_1\|_2^2}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w} \\
			
 
				-	&= \cfrac{\|(\boldsymbol w^{\mathrm{T}}\mu_0-\boldsymbol w^{\mathrm{T}}\mu_1)^{\mathrm{T}}\|_2^2}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w} \\
			
 
				-	&= \cfrac{\|(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w\|_2^2}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w} \\
			
 
				-	&= \cfrac{[(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w]^{\mathrm{T}}(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w} \\
			
 
				-	&= \cfrac{\boldsymbol w^{\mathrm{T}}(\mu_0-\mu_1)(\mu_0-\mu_1)^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\Sigma_0+\Sigma_1)\boldsymbol w}
			
 
				+	J &= \cfrac{\|\boldsymbol w^{\mathrm{T}}\boldsymbol{\mu}_{0}-\boldsymbol w^{\mathrm{T}}\boldsymbol{\mu}_{1}\|_2^2}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w} \\
			
 
				+	&= \cfrac{\|(\boldsymbol w^{\mathrm{T}}\boldsymbol{\mu}_{0}-\boldsymbol w^{\mathrm{T}}\boldsymbol{\mu}_{1})^{\mathrm{T}}\|_2^2}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w} \\
			
 
				+	&= \cfrac{\|(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w\|_2^2}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w} \\
			
 
				+	&= \cfrac{\left[(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w\right]^{\mathrm{T}}(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w} \\
			
 
				+	&= \cfrac{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1})^{\mathrm{T}}\boldsymbol w}{\boldsymbol w^{\mathrm{T}}(\boldsymbol{\Sigma}_{0}+\boldsymbol{\Sigma}_{1})\boldsymbol w}
			
 
				 \end{aligned}$$
			
 
				 
			
 
				 ## 3.37
			
--- a/docs/chapter4/chapter4.md
+++ b/docs/chapter4/chapter4.md
@@ -105,7 +105,7 @@ $$\begin{aligned}
 
				 ## 附录
			
 
				 ### ①互信息<sup>[1]</sup>
			
 
				 在解释互信息之前，需要先解释一下什么是条件熵。条件熵表示的是在已知一个随机变量的条件下，另一个随机变量的不确定性。具体地，假设有随机变量$X$和$Y$，且它们服从以下联合概率分布
			
 
				-$$P(X = x_{i},Y = y_{j}) = p_{ij}，i = 1,2,....,n；j = 1,2,...,m$$
			
 
				+$$P(X = x_{i},Y = y_{j}) = p_{ij}\quad i = 1,2,....,n;j = 1,2,...,m$$
			
 
				 那么在已知$X$的条件下，随机变量$Y$的条件熵为
			
 
				 $$\operatorname{Ent}(Y|X) =  \sum_{i=1}^np_i \operatorname{Ent}(Y|X = x_i)$$
			
 
				 其中，$ p_i = P(X = x_i) ，i =1,2,...,n$。互信息定义为信息熵和条件熵的差，它表示的是已知一个随机变量的信息后使得另一个随机变量的不确定性减少的程度。具体地，假设有随机变量$X$和$Y$，那么在已知$X$的信息后，$Y$的不确定性减少的程度为