5 anni fa · 01a2d589d8
--- a/docs/chapter10/chapter10.md
+++ b/docs/chapter10/chapter10.md
@@ -146,6 +146,17 @@ b_{ij}&=-\frac{1}{2}(dist^2_{ij}-b_{ii}-b_{jj})\\
 
				 \end{aligned}
			
 
				 $$
			
 
				 
			
 
				+## 10.11
			
 
				+
			
 
				+$$
			
 
				+\mathbf{Z}=\mathbf{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\mathrm{T}} \in \mathbb{R}^{d^{*} \times m}
			
 
				+$$
			
 
				+
			
 
				+[解析]：由题设知，$d^*$为$\mathbf{V}$的非零特征值，因此$\mathbf{B}=\mathbf{V} \mathbf{\Lambda} \mathbf{V}^{\top}$可以写成$\mathbf{B}=\mathbf{V}_{*} \mathbf{\Lambda}_{*} \mathbf{V}_{*}^{\top}$，其中$\mathbf{\Lambda}_{*} \in \mathbb{R}^{d \times d}$为$d$个非零特征值构成的特征值对角矩阵，而$\mathbf{V}_{*} \in \mathbb{R}^{m \times d}$ 为  $\mathbf{\Lambda}_{*} \in \mathbb{R}^{d \times d}$对应的特征值向量矩阵，因此有
			
 
				+$$
			
 
				+\mathbf{B}=\left(\mathbf{V}_{*} \mathbf{\Lambda}_{*}^{1 / 2}\right)\left(\boldsymbol{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\top}\right)
			
 
				+$$
			
 
				+故而$\mathbf{Z}=\mathbf{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\top} \in \mathbb{R}^{d \times m}$
			
 
				 
			
 
				 ## 10.14
			
 
				 
			
--- a/docs/chapter8/chapter8.md
+++ b/docs/chapter8/chapter8.md
@@ -79,13 +79,13 @@ $$
 
				    当$H(\boldsymbol{x})$的符号与$f(\boldsymbol{x})$不一致时，$f(\boldsymbol{x}) H(\boldsymbol{x})<0$，因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{|H(\boldsymbol{x})|}>1$，且$| H(\boldsymbol{x}) |$越大指数损失函数越大（这很合理：此时$| H(\boldsymbol{x}) |$越大意味着分类器本身对预测结果的信心越大，但预测结果是错的，因此损失应该越大；若$| H(\boldsymbol{x}) |$在零附近，虽然预测错误，但表示分类器本身对预测结果信心很小，虽然错了，损失应该较小）；
			
 
				    
			
 
				 2. 符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的含义：$\mathcal{D}$为概率分布，可简单理解为在数据集$D$中进行一次随机抽样，每个样本被取到的概率；$\mathbb{E}[\cdot]$为经典的期望，则综合起来$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$表示在概率分布$\mathcal{D}$上的期望，可简单理解为对数据集$D$以概率$\mathcal{D}$进行加权后的期望。即
			
 
				-  $$
			
 
				+$$
			
 
				   \begin{aligned}
			
 
				   \ell_{\exp }(H | \mathcal{D}) &=\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right] \\
			
 
				   &=\sum_{\boldsymbol{x} \in D} \mathcal{D}(\boldsymbol{x}) e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}
			
 
				   \end{aligned}
			
 
				-  $$
			
 
				-  
			
 
				+$$
			
 
				+
			
 
				 
			
 
				 ## 8.6
			
 
				 
			
@@ -175,7 +175,7 @@ $$
 
				 \end{aligned}
			
 
				 $$
			
 
				 
			
 
				-[解析]：将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$带入公式(8.5)即可，因为理想的$h_t(\boldsymbol{x})$可以纠正理想的$h_t$可以纠正$H_{t-1}$的全部错误，所以权重系数为1。如果权重系数$\alpha_t$是个常数的话，对后续结果也没有影响。
			
 
				+[解析]：将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$带入公式(8.5)即可，因为理想的$h_t$可以纠正$H_{t-1}$的全部错误，所以这里指定其权重系数为1。如果权重系数$\alpha_t$是个常数的话，对后续结果也没有影响。
			
 
				 
			
 
				 ## 8.13