Sfoglia il codice sorgente

fix 8.10, add 10.11

archwalker 5 anni fa
parent
commit
01a2d589d8
2 ha cambiato i file con 15 aggiunte e 4 eliminazioni
  1. 11 0
      docs/chapter10/chapter10.md
  2. 4 4
      docs/chapter8/chapter8.md

+ 11 - 0
docs/chapter10/chapter10.md

@@ -146,6 +146,17 @@ b_{ij}&=-\frac{1}{2}(dist^2_{ij}-b_{ii}-b_{jj})\\
 \end{aligned}
 $$
 
+## 10.11
+
+$$
+\mathbf{Z}=\mathbf{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\mathrm{T}} \in \mathbb{R}^{d^{*} \times m}
+$$
+
+[解析]:由题设知,$d^*$为$\mathbf{V}$的非零特征值,因此$\mathbf{B}=\mathbf{V} \mathbf{\Lambda} \mathbf{V}^{\top}$可以写成$\mathbf{B}=\mathbf{V}_{*} \mathbf{\Lambda}_{*} \mathbf{V}_{*}^{\top}$,其中$\mathbf{\Lambda}_{*} \in \mathbb{R}^{d \times d}$为$d$个非零特征值构成的特征值对角矩阵,而$\mathbf{V}_{*} \in \mathbb{R}^{m \times d}$ 为  $\mathbf{\Lambda}_{*} \in \mathbb{R}^{d \times d}$对应的特征值向量矩阵,因此有
+$$
+\mathbf{B}=\left(\mathbf{V}_{*} \mathbf{\Lambda}_{*}^{1 / 2}\right)\left(\boldsymbol{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\top}\right)
+$$
+故而$\mathbf{Z}=\mathbf{\Lambda}_{*}^{1 / 2} \mathbf{V}_{*}^{\top} \in \mathbb{R}^{d \times m}$
 
 ## 10.14
 

+ 4 - 4
docs/chapter8/chapter8.md

@@ -79,13 +79,13 @@ $$
    当$H(\boldsymbol{x})$的符号与$f(\boldsymbol{x})$不一致时,$f(\boldsymbol{x}) H(\boldsymbol{x})<0$,因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{|H(\boldsymbol{x})|}>1$,且$| H(\boldsymbol{x}) |$越大指数损失函数越大(这很合理:此时$| H(\boldsymbol{x}) |$越大意味着分类器本身对预测结果的信心越大,但预测结果是错的,因此损失应该越大;若$| H(\boldsymbol{x}) |$在零附近,虽然预测错误,但表示分类器本身对预测结果信心很小,虽然错了,损失应该较小);
    
 2. 符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的含义:$\mathcal{D}$为概率分布,可简单理解为在数据集$D$中进行一次随机抽样,每个样本被取到的概率;$\mathbb{E}[\cdot]$为经典的期望,则综合起来$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$表示在概率分布$\mathcal{D}$上的期望,可简单理解为对数据集$D$以概率$\mathcal{D}$进行加权后的期望。即
-  $$
+$$
   \begin{aligned}
   \ell_{\exp }(H | \mathcal{D}) &=\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right] \\
   &=\sum_{\boldsymbol{x} \in D} \mathcal{D}(\boldsymbol{x}) e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}
   \end{aligned}
-  $$
-  
+$$
+
 
 ## 8.6
 
@@ -175,7 +175,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$带入公式(8.5)即可,因为理想的$h_t(\boldsymbol{x})$可以纠正理想的$h_t$可以纠正$H_{t-1}$的全部错误,所以权重系数为1。如果权重系数$\alpha_t$是个常数的话,对后续结果也没有影响。
+[解析]:将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$带入公式(8.5)即可,因为理想的$h_t$可以纠正$H_{t-1}$的全部错误,所以这里指定其权重系数为1。如果权重系数$\alpha_t$是个常数的话,对后续结果也没有影响。
 
 ## 8.13