Bladeren bron

fix chapter12

archwalker 5 jaren geleden
bovenliggende
commit
26e75d7599
1 gewijzigde bestanden met toevoegingen van 9 en 11 verwijderingen
  1. 9 11
      docs/chapter12/chapter12.md

+ 9 - 11
docs/chapter12/chapter12.md

@@ -112,7 +112,7 @@ $$
 
 
 
-[解析]:先解释什么是$h$与$D$“表现一致”,12.2节开头阐述了这样的概念,如果$h$能将$D$中所有样本按与真实标记一致的方式完全分开,我们则称$h$对$D$是一致的。即$\left(h\left(\boldsymbol{x}_{1}\right)=y_{1}\right) \wedge \ldots \wedge\left(h\left(\boldsymbol{x}_{m}\right)=y_{m}\right)$为True。因为每个事件是独立的,所以上式可以写成$P\left(\left(h\left(\boldsymbol{x}_{1}\right)=y_{1}\right) \wedge \ldots \wedge\left(h\left(\boldsymbol{x}_{m}\right)=y_{m}\right)\right)=\prod_{i=1}^{m} P\left(h\left(\boldsymbol{x}_{i}\right)=y_{i}\right)$。根据对立事件的定义有:$\prod_{i=1}^{m} P\left(h\left(\boldsymbol{x}_{i}\right)=y_{i}\right)=\prod_{i=1}^{m}\left(1-P\left(h\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)\right)$,又根据公式(12.10),有$$\prod_{i=1}^{m}\left(1-P\left(h\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)\right)<\prod_{i=1}^{m}(1-\epsilon)=(1-\epsilon)^{m}$$
+[解析]:先解释什么是$h$与$D$“表现一致”,12.2节开头阐述了这样的概念,如果$h$能将$D$中所有样本按与真实标记一致的方式完全分开,我们称问题对学习算法是一致的。即$\left(h\left(\boldsymbol{x}_{1}\right)=y_{1}\right) \wedge \ldots \wedge\left(h\left(\boldsymbol{x}_{m}\right)=y_{m}\right)$为True。因为每个事件是独立的,所以上式可以写成$P\left(\left(h\left(\boldsymbol{x}_{1}\right)=y_{1}\right) \wedge \ldots \wedge\left(h\left(\boldsymbol{x}_{m}\right)=y_{m}\right)\right)=\prod_{i=1}^{m} P\left(h\left(\boldsymbol{x}_{i}\right)=y_{i}\right)$。根据对立事件的定义有:$\prod_{i=1}^{m} P\left(h\left(\boldsymbol{x}_{i}\right)=y_{i}\right)=\prod_{i=1}^{m}\left(1-P\left(h\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)\right)$,又根据公式(12.10),有$$\prod_{i=1}^{m}\left(1-P\left(h\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)\right)<\prod_{i=1}^{m}(1-\epsilon)=(1-\epsilon)^{m}$$
 
 
 
@@ -122,7 +122,7 @@ $$
 \begin{aligned} P(h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0) &<|\mathcal{H}|(1-\epsilon)^{m} \\ &<|\mathcal{H}| e^{-m \epsilon} \end{aligned}
 $$
 
-[解析]:首先解释为什么”我们事先并不知道学习算法$\mathcal{L}$会输出$\mathcal{H}$中的哪个假设“,因为一些学习算法对用一个观察集$D$的输出结果是非确定的,比如感知机就是个典型的例子,训练样本的顺序也会影响感知机学习到的假设$h$参数的值。泛化误差大于$\epsilon$且经验误差为0的假设(即在训练集上表现完美的假设)出现的概率可以表示为$P(h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0)$,根据式12.11,每一个这样的假设$h$都满足$P(E(h)>\epsilon \wedge \widehat{E}(h)=0)<\left(1-\epsilon \right)^m$,假设一共有$\vert\mathcal{H}\vert$这么多个这样的假设$h$,因为每个假设$h$满足$E(h)>\epsilon$和$\widehat{E}(h)=0$成立的事件是互斥的,因此总的概率$P(h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0)$就是这些互斥事件之和即
+[解析]:首先解释为什么”我们事先并不知道学习算法$\mathcal{L}$会输出$\mathcal{H}$中的哪个假设“,因为一些学习算法对用一个观察集$D$的输出结果是非确定的,比如感知机就是个典型的例子,训练样本的顺序也会影响感知机学习到的假设$h$参数的值。泛化误差大于$\epsilon$且经验误差为0的假设(即在训练集上表现完美的假设)出现的概率可以表示为$P(h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0)$,根据式12.11,每一个这样的假设$h$都满足$P(E(h)>\epsilon \wedge \widehat{E}(h)=0)<\left(1-\epsilon \right)^m$,假设一共有$\vert\mathcal{H}\vert$这么多个这样的假设$h$,因为每个假设$h$满足$E(h)>\epsilon$且$\widehat{E}(h)=0$是互斥的,因此总的概率$P(h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0)$就是这些互斥事件之和
 $$
 \begin{aligned}P\left(h \in \mathcal{H}: E(h)>\epsilon \wedge \widehat{E}(h)=0\right) &=\sum_i^{\mathcal{\vert H\vert}}P\left(E(h_i)>\epsilon \wedge \widehat{E}(h_i)=0\right)\\&<|\mathcal{H}|(1-\epsilon)^{m}\end{aligned}
 $$
@@ -234,7 +234,7 @@ $$
 =& P\left(\left(\left|E_{h_{1}}-\widehat{E}_{h_{1}}\right|>\epsilon\right) \vee \ldots \vee\left(| E_{h_{|\mathcal{H}|}}-\widehat{E}_{h_{|\mathcal{H}|} |>\epsilon}\right)\right) \\ \leqslant & \sum_{h \in \mathcal{H}} P(|E(h)-\widehat{E}(h)|>\epsilon) 
 \end{aligned}
 $$
-这一步是很好理解的,存在一个假设$h$使得$|E(h)-\widehat{E}(h)|>\epsilon$的概率可以表示为对假设空间内所有的假设$h_i, i\in 1,\dots,\vert\mathcal{H}\vert$,使得$\left|E_{h_{i}}-\widehat{E}_{h_{i}}\right|>\epsilon$这个事件的"或"事件。因为$P(A\vee B)=P(A) + P(B) - P(A\wedge B)$,而$P(A\wedge B)\geqslant 0$,所以最后一行的不等式成立。
+这一步是很好理解的,存在一个假设$h$使得$|E(h)-\widehat{E}(h)|>\epsilon$的概率可以表示为对假设空间内所有的假设$h_i, i\in 1,\dots,\vert\mathcal{H}\vert$,使得$\left|E_{h_{i}}-\widehat{E}_{h_{i}}\right|>\epsilon$这个事件成立的"或"事件。因为$P(A\vee B)=P(A) + P(B) - P(A\wedge B)$,而$P(A\wedge B)\geqslant 0$,所以最后一行的不等式成立。
 
 由式12.17:
 $$
@@ -331,11 +331,11 @@ $$
 $$
 \left|\mathcal{H}_{| D}\right|=\left|\mathcal{H}_{| D^{\prime}}\right|+\left|\mathcal{H}_{D^{\prime} | D}\right|
 $$
-由于$\mathcal{H}_{\vert D^\prime}$表示限制在样本集$D^\prime$上的假设空间$\mathcal{H}$的表达能力(即所有假设对样本集$D^\prime$所能赋予的标记种类数),样本集$D^\prime$的数目为$m-1$,根据增长函数的定义,假设空间$\mathcal{H}$对包含$m-1$个样本的集合所能赋予的最大标记种类数为$\Pi_{\mathcal{H}}(m-1)$,因此$\vert\mathcal{H}_{\vert D^\prime}\vert \leqslant \Pi_\mathcal{H}(m-1)$。又根据数学归纳法的前提假设,有:
+由于$\mathcal{H}_{\vert D^\prime}$表示限制在样本集$D^\prime$上的假设空间$\mathcal{H}$的表达能力(即所有假设对样本集$D^\prime$所能赋予的标记种类数),样本集$D^\prime$的大小为$m-1$,根据增长函数的定义,假设空间$\mathcal{H}$对包含$m-1$个样本的集合所能赋予的最大标记种类数为$\Pi_{\mathcal{H}}(m-1)$,因此$\vert\mathcal{H}_{\vert D^\prime}\vert \leqslant \Pi_\mathcal{H}(m-1)$。又根据数学归纳法的前提假设,有:
 $$
 \left|\mathcal{H}_{| D^{\prime}}\right| \leqslant \Pi_{\mathcal{H}}(m-1) \leqslant \sum_{i=0}^{d}\left(\begin{array}{c}{m-1} \\ {i}\end{array}\right)
 $$
-由记号$\mathcal{H}_{\vert D^\prime}$的定义可知,$\vert\mathcal{H}_{\vert D^\prime}\vert \geqslant \left\lfloor\frac{\vert\mathcal{H}_{\vert D}\vert}{2}\right\rfloor$,因此$\vert\mathcal{H}_{D^\prime\vert D}\vert \leqslant \left\lfloor\frac{\vert\mathcal{H}_{\vert D}\vert}{2}\right\rfloor$,由于样本集$D$的数量为$m$,根据增长函数的概念,有$\left|\mathcal{H}_{D^{\prime}| D}\right| \leqslant \left\lfloor\frac{\vert\mathcal{H}_{\vert D}\vert}{2}\right\rfloor\leqslant \Pi_{\mathcal{H}}(m-1)$。
+由记号$\mathcal{H}_{\vert D^\prime}$的定义可知,$\vert\mathcal{H}_{\vert D^\prime}\vert \geqslant \left\lfloor\frac{\vert\mathcal{H}_{\vert D}\vert}{2}\right\rfloor$,又由于$\vert\mathcal{H}_{\vert D^\prime}\vert$和$\vert\mathcal{H}_{D^\prime\vert D}\vert$均为整数,因此$\vert\mathcal{H}_{D^\prime\vert D}\vert \leqslant \left\lfloor\frac{\vert\mathcal{H}_{\vert D}\vert}{2}\right\rfloor$,由于样本集$D$的大小为$m$,根据增长函数的概念,有$\left|\mathcal{H}_{D^{\prime}| D}\right| \leqslant \left\lfloor\frac{\vert\mathcal{H}_{\vert D}\vert}{2}\right\rfloor\leqslant \Pi_{\mathcal{H}}(m-1)$。
 
 假设$Q$表示能被$\mathcal{H}_{D^\prime\vert D}$打散的集合,因为根据$\mathcal{H}_{D^\prime\vert D}$的定义,$H_{D}$必对元素$x_m$给定了不一致的判定,因此$Q \cup\left\{\boldsymbol{x}_{m}\right\}$必能被$\mathcal{H}_{\vert D}$打散,由前提假设$\mathcal{H}$的VC维为$d$,因此$\mathcal{H}_{D^\prime\vert D}$的VC维最大为$d-1$,综上有
 $$
@@ -595,7 +595,7 @@ $$
 $$
 \widehat{R}_{Z}(\mathcal{F})=\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_{i} f\left(\boldsymbol{z}_{i}\right)\right]
 $$
-[解析]:对比式12.39,这里使用函数空间$\mathcal{F}$代替了假设空间$\mathcal{H}$,函数$f$代替了假设$h$,很容易理解,因为假设$h$即可以看做是作用在数据$x_i$上的一个映射,通过这个映射可以得到标签$y_i$。注意前提假设实值函数空间$\mathcal{F}:\mathcal{Z}\rightarrow\mathbb{R}$,即映射$f$将样本$z$隐射到了实数空间,这个时候所有的$\sigma_i$将是一个标量即$\sigma_i\in\{+1, -1\}$。
+[解析]:对比式12.39,这里使用函数空间$\mathcal{F}$代替了假设空间$\mathcal{H}$,函数$f$代替了假设$h$,很容易理解,因为假设$h$即可以看做是作用在数据$x_i$上的一个映射,通过这个映射可以得到标签$y_i$。注意前提假设实值函数空间$\mathcal{F}:\mathcal{Z}\rightarrow\mathbb{R}$,即映射$f$将样本$z_i$映射到了实数空间,这个时候所有的$\sigma_i$将是一个标量即$\sigma_i\in\{+1, -1\}$。
 
 
 
@@ -659,7 +659,7 @@ $$
 
 第七行利用$\sigma$是对称的,所以$-\sigma$的分布和$\sigma$完全一致,所以可以将第二项中的负号去除,又因为$Z$和$Z^\prime$均是从$\mathcal{D}$中$i.i.d.$采样得到的数据,因此可以将第一项中的$z^\prime_i$替换成$z$,将$Z^\prime$替换成$Z$。
 
-最后根据定义式12.41可得$\mathbb{E}_{Z}[\Phi(Z)]=2\mathcal{R}_m(\mathcal{F})$,式12.24得证。
+最后根据定义式12.41可得$\mathbb{E}_{Z}[\Phi(Z)]=2\mathcal{R}_m(\mathcal{F})$,式12.42得证。
 
 ## 12.43
 
@@ -776,9 +776,7 @@ $$
 
 若学习算法$\mathcal{L}$是ERM且是稳定的,则假设空间$\mathcal{H}$可学习。
 
-[解析]:首先明确几个概念,ERM表示算法$\mathcal{L}$满足经验风险最小化(Empirical Risk Minimization),学习算法稳定表示。由于$\mathcal{L}$满足经验误差最小化,则可
-
-令$g$表示假设空间中具有最小泛化损失的假设,即
+[解析]:首先ERM表示算法$\mathcal{L}$满足经验风险最小化(Empirical Risk Minimization)。由于$\mathcal{L}$满足经验误差最小化,则可令$g$表示假设空间中具有最小泛化损失的假设,即
 $$
 \ell(g, \mathcal{D})=\min _{h \in \mathcal{H}} \ell(h, \mathcal{D})
 $$
@@ -806,7 +804,7 @@ $$
 $$
 P(\ell(\mathfrak{L}, \mathcal{D})-\ell(g, \mathcal{D})\leqslant\epsilon)\geqslant 1-\delta
 $$
-又因为$m$为关于$\left(1/\epsilon,1/\delta,\text{size}(x),\text{size}(c)\right)$的多项式,因此根据定理12.2,定理12.5,得到结论$\mathcal{H}$是(不可知)PAC可学习的。
+又因为$m$为$\left(1/\epsilon,1/\delta,\text{size}(x),\text{size}(c)\right)$相关的多项式的值,因此根据定理12.2,定理12.5,得到结论$\mathcal{H}$是(不可知)PAC可学习的。