archwalker 5 лет назад
Родитель
Сommit
2661a95889
1 измененных файлов с 55 добавлено и 86 удалено
  1. 55 86
      docs/chapter8/chapter8.md

+ 55 - 86
docs/chapter8/chapter8.md

@@ -4,7 +4,7 @@ $$
 P\left(h_{i}(\boldsymbol{x}) \neq f(\boldsymbol{x})\right)=\epsilon
 $$
 
-[解析]:$h_{i}(\boldsymbol{x})$是编号为$i$的基分类器,$f(\boldsymbol{x})$是真实函数,取值时-1或1,当基学习器分类错误时的概率是$\epsilon$
+[解析]:$h_{i}(\boldsymbol{x})$是编号为$i$的基分类器给$x$的预测标记,$f(\boldsymbol{x})$是$x$的真实标记,它们之间不一致的概率记为$\epsilon$。
 
 ## 8.2
 
@@ -12,7 +12,7 @@ $$
 H(\boldsymbol{x})=\operatorname{sign}\left(\sum_{i=1}^{T} h_{i}(\boldsymbol{x})\right)
 $$
 
-[解析]:$h_i(\boldsymbol{x})$当把$\boldsymbol{x}$分成1时,$h_i(\boldsymbol{x})=1$,否则$h_i(\boldsymbol{x})=-1$各个分类器的结果求和之后数字的正、负或0,代表投票法产生的结果,即“少数服从多数”,符号函数$\operatorname{sign}$,将正数变成1,负数变成-1,0仍然是0,所以$H(\boldsymbol{x})$是由投票法产生的分类结果。
+[解析]:$h_i(\boldsymbol{x})$当把$\boldsymbol{x}$分成1时,$h_i(\boldsymbol{x})=1$,否则$h_i(\boldsymbol{x})=-1$各个分类器$h_i$分类结果求和之后数字的正、负或0,代表投票法产生的结果,即“少数服从多数”,符号函数$\operatorname{sign}$,将正数变成1,负数变成-1,0仍然是0,所以$H(\boldsymbol{x})$是由投票法产生的分类结果。
 
 ## 8.3
 
@@ -20,7 +20,7 @@ $$
 \begin{aligned} P(H(\boldsymbol{x}) \neq f(\boldsymbol{x})) &=\sum_{k=0}^{\lfloor T / 2\rfloor} \left( \begin{array}{c}{T} \\ {k}\end{array}\right)(1-\epsilon)^{k} \epsilon^{T-k} \\ & \leqslant \exp \left(-\frac{1}{2} T(1-2 \epsilon)^{2}\right) \end{aligned}
 $$
 
-[推导]:由基分类器相互独立,设X为T个基分类器分类正确的次数,因此$\mathrm{X} \sim \mathrm{B}(\mathrm{T}, 1-\mathrm{\epsilon})$,设$x_i$为每一个分类器分类正确的次数,则$x_i\sim \mathrm{B}(1, 1-\mathrm{\epsilon})(i=1,2,3,...,\mathrm{T})$,那么$$\mathrm{X}=\sum_{i=1}^{\mathrm{T}} x_i,\mathbb{E}(X)=\sum_{i=1}^{\mathrm{T}}\mathbb{E}(x_i)$$
+[推导]:由基分类器相互独立,假设随机变量$X$为$T$个基分类器分类正确的次数,因此$\mathrm{X} \sim \mathrm{B}(\mathrm{T}, 1-\mathrm{\epsilon})$,设$x_i$为每一个分类器分类正确的次数,则$x_i\sim \mathrm{B}(1, 1-\mathrm{\epsilon})(i=1,2,3,...,\mathrm{T})$,那么$$\mathrm{X}=\sum_{i=1}^{\mathrm{T}} x_i,\mathbb{E}(X)=\sum_{i=1}^{\mathrm{T}}\mathbb{E}(x_i)$$
 证明过程如下:
 $$
 \begin{aligned} P(H(x) \neq f(x))=& P(X \leq\lfloor T / 2\rfloor) \\ & \leqslant P(X \leq T / 2)
@@ -55,10 +55,7 @@ $$
 ## 8.5
 
 $$
-\begin{aligned}
-\ell_{\mathrm{exp}}(H | \mathcal{D})=&\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right]
-\\ =&P(f(x)=1|x)*e^{-H(x)}+P(f(x)=-1|x)*e^{H(x)}
-\end{aligned}
+\ell_{\mathrm{exp}}(H | \mathcal{D})=\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right]
 $$
 
 [解析]:由式(8.4)知
@@ -69,12 +66,16 @@ $$
 $$
 \alpha_{t}=\frac{1}{2} \ln \left(\frac{1-\epsilon_{t}}{\epsilon_{t}}\right)
 $$
-该分类器的权重只与分类器的错误率负相关(即错误率越大,权重越低)
+由$\ln$函数的单调性可知,该分类器的权重只与分类器的错误率负相关(即错误率越大,权重越低),下面解释指数损失函数的意义:
 
-1. 先考虑指数损失函数$e^{-f(x) H(x)}$的含义:$f$为真实函数,对于样本$x$来说,$f(\boldsymbol{x}) \in\{+1,-1\}$只能取+1和-1,而$H(\boldsymbol{x})$是一个实数;
+1. 先考虑指数损失函数$e^{-f(x) H(x)}$的含义:$f$为真实函数,对于样本$x$来说,$f(\boldsymbol{x}) \in\{+1,-1\}$只能取$+1$$-1$,而$H(\boldsymbol{x})$是一个实数;
    当$H(\boldsymbol{x})$的符号与$f(x)$一致时,$f(\boldsymbol{x}) H(\boldsymbol{x})>0$,因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{-|H(\boldsymbol{x})|}<1$,且$|H(\boldsymbol{x})|$越大指数损失函数$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}$越小(这很合理:此时$|H(\boldsymbol{x})|$越大意味着分类器本身对预测结果的信心越大,损失应该越小;若$|H(\boldsymbol{x})|$在零附近,虽然预测正确,但表示分类器本身对预测结果信心很小,损失应该较大);
    当$H(\boldsymbol{x})$的符号与$f(\boldsymbol{x})$不一致时,$f(\boldsymbol{x}) H(\boldsymbol{x})<0$,因此$e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}=e^{|H(\boldsymbol{x})|}>1$,且$| H(\boldsymbol{x}) |$越大指数损失函数越大(这很合理:此时$| H(\boldsymbol{x}) |$越大意味着分类器本身对预测结果的信心越大,但预测结果是错的,因此损失应该越大;若$| H(\boldsymbol{x}) |$在零附近,虽然预测错误,但表示分类器本身对预测结果信心很小,虽然错了,损失应该较小);
-2. 符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的含义:$\mathcal{D}$为概率分布,可简单理解为在数据集$D$中进行一次随机抽样,每个样本被取到的概率;$\mathbb{E}[\cdot]$为经典的期望,则综合起来$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$表示在概率分布$\mathcal{D}$上的期望,可简单理解为对数据集$D$以概率$\mathcal{D}$进行加权后的期望。
+2. 符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的含义:$\mathcal{D}$为概率分布,可简单理解为在数据集$D$中进行一次随机抽样,每个样本被取到的概率;$\mathbb{E}[\cdot]$为经典的期望,则综合起来$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$表示在概率分布$\mathcal{D}$上的期望,可简单理解为对数据集$D$以概率$\mathcal{D}$进行加权后的期望。即
+$$\begin{aligned}
+\ell_{\exp }(H | \mathcal{D}) &=\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right] \\
+&=\sum_{\boldsymbol{x} \in D} \mathcal{D}(\boldsymbol{x}) e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}
+\end{aligned}$$
 
 ## 8.6
 
@@ -82,9 +83,17 @@ $$
 \frac{\partial \ell_{\exp }(H | \mathcal{D})}{\partial H(\boldsymbol{x})}=-e^{-H(\boldsymbol{x})} P(f(\boldsymbol{x})=1 | \boldsymbol{x})+e^{H(\boldsymbol{x})} P(f(\boldsymbol{x})=-1 | \boldsymbol{x})
 $$
 
-[解析]:为求得$\ell_{\exp }(H | \mathcal{D})$损失函数的最小值,先对未知数$H$求偏导,$P(f(x)=1|x)和P(f(x)=-1|x)$为常数
+[解析]:由公式(8.5)中对于符号$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}[\cdot]$的解释可知
 
-故式(8.6)可轻易推知
+$$
+\begin{aligned}
+\ell_{\exp }(H | \mathcal{D}) &=\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[e^{-f(\boldsymbol{x}) H(\boldsymbol{x})}\right] \\
+&=\sum_{\boldsymbol{x} \in D} \mathcal{D}(\boldsymbol{x}) e^{-f(\boldsymbol{x}) H(\boldsymbol{x})} \\
+&=\sum_{i=1}^{|D|} \mathcal{D}\left(\boldsymbol{x}_{i}\right)\left(e^{-H\left(\boldsymbol{x}_{i}\right)} P\left(f\left(\boldsymbol{x}_{i}\right)=1 | \boldsymbol{x}_{i}\right)+e^{H\left(\boldsymbol{x}_{i}\right)} P\left(f\left(\boldsymbol{x}_{i}\right)=-1 | \boldsymbol{x}_{i}\right)\right)
+\end{aligned}
+$$
+
+因此
 
 $$
 \frac{\partial \ell_{\exp }(H | \mathcal{D})}{\partial H(\boldsymbol{x})}=-e^{-H(\boldsymbol{x})} P(f(\boldsymbol{x})=1 | \boldsymbol{x})+e^{H(\boldsymbol{x})} P(f(\boldsymbol{x})=-1 | \boldsymbol{x})
@@ -96,7 +105,7 @@ $$
 H(\boldsymbol{x})=\frac{1}{2} \ln \frac{P(f(x)=1 | \boldsymbol{x})}{P(f(x)=-1 | \boldsymbol{x})}
 $$
 
-[解析]:令式(8.6)等于0,分离出来$H(\boldsymbol{x})$,即可得到式(8.7)。
+[解析]:令式(8.6)等于0,移项并分离$H(\boldsymbol{x})$,即可得到式(8.7)。
 
 ## 8.8
 
@@ -108,7 +117,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:该式显然成立,由(8.6)知,假设$H(\boldsymbol{x})$可以使指数损失函数最小化,同时由该式可以看出来,也满足真实函数与分类器$H(\boldsymbol{x})$结果一致
+[解析]:第一行到第二行显然成立,第二行到第三行是利用了$\arg\max$函数的定义。$\underset{y \in\{-1,1\}}{\arg \max } P(f(x)=y | \boldsymbol{x})$表示使得函数$P(f(x)=y | \boldsymbol{x}$取得最大值的$y$的值,展开刚好和第二行的式子。
 
 ## 8.9
 
@@ -121,7 +130,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:$\epsilon_t$与式(8.1)一致,为$h_t(\boldsymbol{x})$分类错误的概率
+[解析]:$\epsilon_t$与式(8.1)一致,表示$h_t(\boldsymbol{x})$分类错误的概率。
 
 ## 8.10
 
@@ -129,7 +138,7 @@ $$
 \frac{\partial \ell_{\exp }\left(\alpha_{t} h_{t} | \mathcal{D}_{t}\right)}{\partial \alpha_{t}}=-e^{-\alpha_{t}}\left(1-\epsilon_{t}\right)+e^{\alpha_{t}} \epsilon_{t}
 $$
 
-[解析]:指数损失函数对$\alpha_t$求偏导,为了得到使得损失函数取最小值时$\alpha_t$的值
+[解析]:指数损失函数对$\alpha_t$求偏导,为了得到使得损失函数取最小值时$\alpha_t$的值
 
 ## 8.11
 
@@ -137,7 +146,7 @@ $$
 \alpha_{t}=\frac{1}{2} \ln \left(\frac{1-\epsilon_{t}}{\epsilon_{t}}\right)
 $$
 
-[解析]:令偏导数等于0,得到的该式,此时$\alpha_t$的取值使得该基分类器经$\alpha_t$加权后的损失函数最小
+[解析]:令公式(8.10)等于0移项即得到的该式。此时$\alpha_t$的取值使得该基分类器经$\alpha_t$加权后的损失函数最小
 
 ## 8.12
 
@@ -148,7 +157,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:因为理想的$h_t(\boldsymbol{x})$可以纠正理想的$h_t$可以纠正$H_{t-1}$的全部错误,所以权重系数为1。如果权重系数$\alpha_t$是个常数的话,对后续结果也没有影响。
+[解析]:将$H_{t}(\boldsymbol{x})=H_{t-1}(\boldsymbol{x})+h_{t}(\boldsymbol{x})$带入公式(8.5)即可,因为理想的$h_t(\boldsymbol{x})$可以纠正理想的$h_t$可以纠正$H_{t-1}$的全部错误,所以权重系数为1。如果权重系数$\alpha_t$是个常数的话,对后续结果也没有影响。
 
 ## 8.13
 
@@ -179,7 +188,7 @@ h_{t}(\boldsymbol{x})&=\underset{h}{\arg \min } \ell_{\exp }\left(H_{t-1}+h | \m
 \end{aligned}
 $$
 
-[解析]:理想的$h_t(\boldsymbol{x})$是使得$H_{t}(\boldsymbol{x})$的指数损失函数取得最小值时的$h_t(\boldsymbol{x})$,该式将此转化成某个期望的最大值
+[解析]:理想的$h_t(\boldsymbol{x})$是使得$H_{t}(\boldsymbol{x})$的指数损失函数取得最小值时的$h_t(\boldsymbol{x})$,该式将此转化成某个期望的最大值。第二个式子到第三个式子是因为$\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[\frac{3}{2} e^{-f(\boldsymbol{x}) H_{t-1}(\boldsymbol{x})}\right]$与$h(\boldsymbol{x})$无关,是一个常数。第三个式子到最后一个式子是因为$\frac{1}{\mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}}\left[\frac{3}{2} e^{-f(\boldsymbol{x}) H_{t-1}(\boldsymbol{x})}\right]}$与$h(\boldsymbol{x})$无关因此可以引入进来。
 
 ## 8.16
 
@@ -213,7 +222,7 @@ $$
 f(\boldsymbol{x}) h(\boldsymbol{x})=1-2 \mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))
 $$
 
-[解析]:当$f(\boldsymbol{x})=h(\boldsymbol{x})$时,$\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))=0$,$f(\boldsymbol{x}) h(\boldsymbol{x})=1$,当$f(\boldsymbol{x})\neq h(\boldsymbol{x})$时,$\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))=1$,$f(\boldsymbol{x}) h(\boldsymbol{x})=-1$
+[解析]:当$f(\boldsymbol{x})=h(\boldsymbol{x})$时,$\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))=0$,$f(\boldsymbol{x}) h(\boldsymbol{x})=1$,当$f(\boldsymbol{x})\neq h(\boldsymbol{x})$时,$\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))=1$,$f(\boldsymbol{x}) h(\boldsymbol{x})=-1$
 
 ## 8.18
 
@@ -221,7 +230,15 @@ $$
 h_{t}(\boldsymbol{x})=\underset{h}{\arg \min } \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{t}}[\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))]
 $$
 
-[解析]:结合式(8.16)与(8.17)可知该式成立
+[解析]:由公式(8.16) 和公式(8.17)有:
+$$
+\begin{aligned}
+h_{t}(\boldsymbol{x}) &=\arg \max _{h} \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{t}}[f(\boldsymbol{x}) h(\boldsymbol{x})] \\
+&=\arg \max _{h}\left(1-2 \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{t}}[\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))]\right) \\
+&=\underset{h}{\arg \max }\left(-2 \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{t}}[\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))]\right) \\
+&=\arg \min \mathbb{E}_{\boldsymbol{x} \sim \mathcal{D}_{t}}[\mathbb{I}(f(\boldsymbol{x}) \neq h(\boldsymbol{x}))]
+\end{aligned}
+$$
 
 ## 8.19
 
@@ -233,7 +250,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:boosting算法是根据调整后的样本再去训练下一个基分类器,这就是“重赋权法”的样本分布的调整公式
+[解析]:boosting算法是根据调整后的样本再去训练下一个基分类器,这就是“重赋权法”的样本分布的调整公式
 
 
 ## 8.20
@@ -242,7 +259,7 @@ $$
 H^{oob}(\boldsymbol{x})=\underset{y \in \mathcal{Y}}{\arg \max } \sum_{t=1}^{\mathrm{T}} \mathbb{I}\left(h_{t}(\boldsymbol{x})=y\right) \cdot \mathbb{I}\left(\boldsymbol{x} \notin D_{t}\right)
 $$
 
-[解析]:$\mathbb{I}\left(h_{t}(\boldsymbol{x})=y\right)$表示对$\mathrm{T}$个基学习器,每一个都判断结果是否与$y$一致,$y$的取值一般是$-1$和$1$,如果基学习器结果与$y$一致,则$\mathbb{I}\left(h_{t}(\boldsymbol{x})=y\right)=1$,如果样本不在训练集内,则$\mathbb{I}\left(\boldsymbol{x} \notin D_{t}\right)=1$,综合起来看就是,对包外的数据,用“投票法”选择包外估计的结果,即1或-1
+[解析]:$\mathbb{I}\left(h_{t}(\boldsymbol{x})=y\right)$表示对$\mathrm{T}$个基学习器,每一个都判断结果是否与$y$一致,$y$的取值一般是$-1$和$1$,如果基学习器结果与$y$一致,则$\mathbb{I}\left(h_{t}(\boldsymbol{x})=y\right)=1$,如果样本不在训练集内,则$\mathbb{I}\left(\boldsymbol{x} \notin D_{t}\right)=1$,综合起来看就是,对包外的数据,用“投票法”选择包外估计的结果,即1或-1
 
 ## 8.21
 
@@ -250,7 +267,7 @@ $$
 \epsilon^{o o b}=\frac{1}{|D|} \sum_{(\boldsymbol{x}, y) \in D} \mathbb{I}\left(H^{o o b}(\boldsymbol{x}) \neq y\right)
 $$
 
-[解析]:由8.20知,$H^{oob}(\boldsymbol{x})$是对包外的估计,该式表示估计错误的个数除以总的个数,得到泛化误差的包外估计
+[解析]:由8.20知,$H^{oob}(\boldsymbol{x})$是对包外的估计,该式表示估计错误的个数除以总的个数,得到泛化误差的包外估计
 
 ## 8.22
 
@@ -258,7 +275,7 @@ $$
 H(\boldsymbol{x})=\frac{1}{T} \sum_{i=1}^{T} h_{i}(\boldsymbol{x})
 $$
 
-[解析]:对基分类器的结果进行简单的平均
+[解析]:对基分类器的结果进行简单的平均
 
 ## 8.23
 
@@ -266,7 +283,7 @@ $$
 H(\boldsymbol{x})=\sum_{i=1}^{T} w_{i} h_{i}(\boldsymbol{x})
 $$
 
-[解析]:对基分类器的结果进行加权平均
+[解析]:对基分类器的结果进行加权平均
 
 ## 8.24
 
@@ -277,7 +294,7 @@ H(\boldsymbol{x})=\left\{\begin{array}{ll}
 \end{array}\right.
 $$
 
-[解析]:当某一个类别$j$的基分类器的结果之和,大于所有结果之和的$\frac {1}{2}$,则选择该类别$j$为最终结果
+[解析]:当某一个类别$j$的基分类器的结果之和,大于所有结果之和的$\frac {1}{2}$,则选择该类别$j$为最终结果
 
 ## 8.25
 
@@ -285,7 +302,7 @@ $$
 H(\boldsymbol{x})=c_{\underset{j}{ \arg \max} \sum_{i=1}^{T} h_{i}^{j}(\boldsymbol{x})}
 $$
 
-[解析]:相比于其他类别,该类别$j$的基分类器的结果之和最大,则选择类别$j$为最终结果
+[解析]:相比于其他类别,该类别$j$的基分类器的结果之和最大,则选择类别$j$为最终结果
 
 ## 8.26
 
@@ -293,7 +310,7 @@ $$
 H(\boldsymbol{x})=c_{\underset{j}{ \arg \max} \sum_{i=1}^{T} w_i h_{i}^{j}(\boldsymbol{x})}
 $$
 
-[解析]:相比于其他类别,该类别$j$的基分类器的结果之和最大,则选择类别$j$为最终结果,与式(8.25)不同的是,该式在基分类器前面乘上一个权重系数,该系数大于等于0,且T个权重之和为1
+[解析]:相比于其他类别,该类别$j$的基分类器的结果之和最大,则选择类别$j$为最终结果,与式(8.25)不同的是,该式在基分类器前面乘上一个权重系数,该系数大于等于0,且T个权重之和为1
 
 ## 8.27
 
@@ -301,7 +318,7 @@ $$
 A\left(h_{i} | \boldsymbol{x}\right)=\left(h_{i}(\boldsymbol{x})-H(\boldsymbol{x})\right)^{2}
 $$
 
-[解析]:该式表示个体学习器结果与预测结果的差值的平方,即为个体学习器的“分歧”
+[解析]:该式表示个体学习器结果与预测结果的差值的平方,即为个体学习器的“分歧”
 
 ## 8.28
 
@@ -312,7 +329,7 @@ $$
 \end{aligned}
 $$
 
-[解析]:该式表示对各个个体学习器的“分歧”加权平均的结果,即集成的“分歧”
+[解析]:该式表示对各个个体学习器的“分歧”加权平均的结果,即集成的“分歧”
 
 ## 8.29
 
@@ -320,7 +337,7 @@ $$
 E\left(h_{i} | \boldsymbol{x}\right)=\left(f(\boldsymbol{x})-h_{i}(\boldsymbol{x})\right)^{2}
 $$
 
-[解析]:该式表示个体学习器与真实值之间差值的平方,即个体学习器的平方误差
+[解析]:该式表示个体学习器与真实值之间差值的平方,即个体学习器的平方误差
 
 ## 8.30
 
@@ -328,7 +345,7 @@ $$
 E(H | \boldsymbol{x})=(f(\boldsymbol{x})-H(\boldsymbol{x}))^{2}
 $$
 
-[解析]:该式表示集成与真实值之间差值的平方,即集成的平方误差
+[解析]:该式表示集成与真实值之间差值的平方,即集成的平方误差
 
 ## 8.31
 
@@ -364,7 +381,7 @@ $$
 \sum_{i=1}^{T} w_{i} \int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}=\sum_{i=1}^{T} w_{i} \int E\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}-\int E(H | \boldsymbol{x}) p(\boldsymbol{x}) d \boldsymbol{x}
 $$
 
-[解析]:$\int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}$表示个体学习器在全样本上的“分歧”,$\sum_{i=1}^{T} w_{i} \int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}$表示集成在全样本上的“分歧”,然后根据式(8.31)拆成误差的形式
+[解析]:$\int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}$表示个体学习器在全样本上的“分歧”,$\sum_{i=1}^{T} w_{i} \int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}$表示集成在全样本上的“分歧”,然后根据式(8.31)拆成误差的形式
 
 ## 8.33
 
@@ -372,7 +389,7 @@ $$
 E_{i}=\int E\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}
 $$
 
-[解析]:表示个体学习器在全样本上的泛化误差
+[解析]:表示个体学习器在全样本上的泛化误差
 
 ## 8.34
 
@@ -380,7 +397,7 @@ $$
 A_{i}=\int A\left(h_{i} | \boldsymbol{x}\right) p(\boldsymbol{x}) d \boldsymbol{x}
 $$
 
-[解析]:表示个体学习器在全样本上的分歧
+[解析]:表示个体学习器在全样本上的分歧
 
 ## 8.35
 
@@ -388,7 +405,7 @@ $$
 E=\int E(H | \boldsymbol{x}) p(\boldsymbol{x}) d \boldsymbol{x}
 $$
 
-[解析]:表示集成在全样本上的泛化误差
+[解析]:表示集成在全样本上的泛化误差
 
 ## 8.36
 
@@ -396,52 +413,4 @@ $$
 E=\bar{E}-\bar{A}
 $$
 
-[解析]:$\bar{E}$表示个体学习器泛化误差的加权均值,$\bar{A}$表示个体学习器分歧项的加权均值,该式称为“误差-分歧分解”
-
-## 8.37
-
-$$
-d i s_{i j}=\frac{b+c}{m}
-$$
-
-[解析]:这是不合度量的定义式,具体参考“西瓜书”
-
-## 8.38
-
-$$
-\rho_{i j}=\frac{a d-b c}{\sqrt{(a+b)(a+c)(c+d)(b+d)}}
-$$
-
-[解析]:这是相关系数的定义式,具体参考“西瓜书”
-
-## 8.39
-
-$$
-Q_{i j}=\frac{a d-b c}{a d+b c}
-$$
-
-[解析]:这是Q-统计量的定义式,具体参考“西瓜书”
-
-## 8.40
-
-$$
-\kappa=\frac{p_{1}-p_{2}}{1-p_{2}}
-$$
-
-[解析]:这是$\kappa$-统计量的定义式,具体参考“西瓜书”
-
-## 8.41
-
-$$
-p_{1}=\frac{a+d}{m}
-$$
-
-[解析]:这是两个个体学习器取得一致的概率,具体参考“西瓜书”
-
-## 8.42
-
-$$
-p_{2}=\frac{(a+b)(a+c)+(c+d)(b+d)}{m^{2}}
-$$
-
-[解析]:这是两个个体学习器偶然达成一致的概率,具体参考“西瓜书”
+[解析]:$\bar{E}$表示个体学习器泛化误差的加权均值,$\bar{A}$表示个体学习器分歧项的加权均值,该式称为“误差-分歧分解”。