Bläddra i källkod

add chapter11

archwalker 6 år sedan
förälder
incheckning
4ab626120d
1 ändrade filer med 237 tillägg och 47 borttagningar
  1. 237 47
      docs/chapter11/chapter11.md

+ 237 - 47
docs/chapter11/chapter11.md

@@ -1,67 +1,252 @@
-## 11.10
+## 11.1
+
+$$
+\operatorname{Gain}(A)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)
+$$
+
+[解析]:此为信息增益的定义式,对数据集$D$和属性子集$A$,假设根据$A$的取值将$D$分为了$V$个子集$\{D^1,D^2,\dots,D^V\}$,那么信息增益的定义为划分之前数据集$D$的信息熵和划分之后每个子数据集$D^v$的信息熵的差。熵用来衡量一个系统的混乱程度,因此划分前和划分后熵的差越大,表示划分越有效,划分带来的”信息增益“越大。
+
+## 11.2
+
+$$
+\operatorname{Ent}(D)=-\sum_{i=1}^{| \mathcal{Y |}} p_{k} \log _{2} p_{k}
+$$
+
+[解析]:此为信息熵的定义式,其中$p_k, k=1, 2, \dots \vert\mathcal{Y}\vert$表示$D$中第$i$类样本所占的比例。可以看出,样本越纯,即$p_k\rightarrow 0$或$p_k\rightarrow 1$时,$\mathrm{Ent}(D)$越小,其最小值为0。此时必有$p_i=1, p_{\backslash i}=0, i=1, 2, \dots, \vert\mathcal{Y}\vert$。
+
+**式11.3,11.4是Relief方法的公式,文中已有详细解释,在此不再赘述**
+
+## 11.5
+
+$$
+\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)^{2}
+$$
+
+[解析]:该式为线性回归的优化目标式,$y_i$表示样本$i$的真实值,而$w^\top x_i$表示其预测值,这里使用预测值和真实值差的平方衡量预测值偏离真实值的大小。
+
+## 11.6
+
+$$
+\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)^{2}+\lambda\|\boldsymbol{w}\|_{2}^{2}
+$$
+
+[解析]:该式为加入了$\mathrm{L}_2$正规化项的优化目标,也叫”岭回归“,$\lambda$用来调节误差项和正规化项的相对重要性,引入正规化项的目的是为了防止$w$的分量过太而导致过拟合的风险。
+
+## 11.7
+
+$$
+\min _{\boldsymbol{w}} \sum_{i=1}^{m}\left(y_{i}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)^{2}+\lambda\|\boldsymbol{w}\|_{1}
+$$
+
+[解析]:该式将11.6中的$\mathrm{L}_2$正规化项替换成了$\mathrm{L}_1$正规化项,也叫LASSO回归。关于$\mathrm{L}_2$和$\mathrm{L}_1$两个正规化项的区别,原书图11.2给出了很形象的解释。具体来说,结合$\mathrm{L}_1$范数优化的模型参数分量更偏向于取0,因此更容易取得稀疏解。
+
+## 11.8
 
+令$\nabla$表示微分算子,对优化目标
 $$
-\hat{f}(x) \simeq f(x_{k})+\langle \nabla f(x_{k}),x-x_{k} \rangle + \frac{L}{2}\left \| x-x_{k} \right\|^{2}
+\min _{\boldsymbol{x}} f(\boldsymbol{x})+\lambda\|\boldsymbol{x}\|_{1}
 $$
+若$f(x)$可到,且$\nabla f$可导,且$\nabla f$满足$L\mathrm{-Lipschitz}$条件,即存在常数$L>0$使得
+$$
+\left\|\nabla f\left(\boldsymbol{x}^{\prime}\right)-\nabla f(\boldsymbol{x})\right\|_{2}^{2} \leqslant L\left\|\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\|_{2}^{2} \quad\left(\forall \boldsymbol{x}, \boldsymbol{x}^{\prime}\right)
+$$
+则在$x_k$附近可将$f(x)$通过二阶泰勒展开式近似为
+$$
+\begin{aligned}
+\hat{f}(\boldsymbol{x}) & \simeq f\left(\boldsymbol{x}_{k}\right)+\left\langle\nabla f\left(\boldsymbol{x}_{k}\right), \boldsymbol{x}-\boldsymbol{x}_{k}\right\rangle+\frac{L}{2}\left\|\boldsymbol{x}-\boldsymbol{x}_{k}\right\|^{2} \\
+&=\frac{L}{2}\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)\right\|_{2}^{2}+\mathrm{const}
+\end{aligned}
+$$
+[解析]:首先注意优化目标式和11.7 LASSO回归的联系和区别,该式中的$x$对应到式11.7的$w$,即我们优化的目标。再解释下什么是[$L\mathrm{-Lipschitz}$条件](https://zh.wikipedia.org/wiki/利普希茨連續),根据维基百科的定义:它是一个比通常[连续](https://zh.wikipedia.org/wiki/連續函數)更强的光滑性条件。直觉上,利普希茨连续函数限制了函数改变的速度,符合利普希茨条件的函数的斜率,必小于一个称为利普希茨常数的实数(该常数依函数而定)。
+
+注意这里可能存在一个笔误,在wiki百科的定义中,式11.7应该写成
+$$
+\left\vert\nabla f\left(\boldsymbol{x}^{\prime}\right)-\nabla f(\boldsymbol{x})\right\vert \leqslant L\left\vert\boldsymbol{x}^{\prime}-\boldsymbol{x}\right\vert \quad\left(\forall \boldsymbol{x}, \boldsymbol{x}^{\prime}\right)
+$$
+移项得
+$$
+\frac{\left|\nabla f\left(\boldsymbol{x}^{\prime}\right)-\nabla f(\boldsymbol{x})\right|}{\vert x^\prime - x\vert}\leqslant L \quad\left(\forall \boldsymbol{x}, \boldsymbol{x}^{\prime}\right)
+$$
+由于上式对所有的$x, x^\prime$都成立,由[导数的定义](https://zh.wikipedia.org/wiki/导数),上式可以看成是$f(x)$的二阶导数恒不大于$L$。即
+$$
+\nabla^2f(x)\leqslant L
+$$
+得到这个结论之后,我们来推导式11.10。
 
-[推导]:
+由[泰勒公式](https://zh.wikipedia.org/wiki/泰勒公式),$x_k$附近的$f(x)$通过二阶泰勒展开式可近似为
 $$
 \begin{aligned}
-\hat{f}(x) &\simeq f(x_{k})+\langle \nabla f(x_{k}),x-x_{k} \rangle + \frac{L}{2}\left \| x-x_{k} \right\|^{2} \\
-&= f(x_{k})+\langle \nabla f(x_{k}),x-x_{k} \rangle + \langle\frac{L}{2}(x-x_{k}),x-x_{k}\rangle \\
-&= f(x_{k})+\langle \nabla f(x_{k})+\frac{L}{2}(x-x_{k}),x-x_{k} \rangle \\
-&= f(x_{k})+\frac{L}{2}\langle\frac{2}{L}\nabla f(x_{k})+(x-x_{k}),x-x_{k} \rangle \\
-&= f(x_{k})+\frac{L}{2}\langle x-x_{k}+\frac{1}{L}\nabla f(x_{k})+\frac{1}{L}\nabla f(x_{k}),x-x_{k}+\frac{1}{L}\nabla f(x_{k})-\frac{1}{L}\nabla f(x_{k}) \rangle \\
-&= f(x_{k})+\frac{L}{2}\left\| x-x_{k}+\frac{1}{L}\nabla f(x_{k}) \right\|_{2}^{2} -\frac{1}{2L}\left\|\nabla f(x_{k})\right\|_{2}^{2} \\
-&= \frac{L}{2}\left\| x-(x_{k}-\frac{1}{L}\nabla f(x_{k})) \right\|_{2}^{2} + const \qquad (因为f(x_{k})和\nabla f(x_{k})是常数)
+\hat{f}(\boldsymbol{x}) & \simeq f\left(\boldsymbol{x}_{k}\right)+\left\langle\nabla f\left(\boldsymbol{x}_{k}\right), \boldsymbol{x}-\boldsymbol{x}_{k}\right\rangle+\frac{\nabla^2f(x_k)}{2}\left\|\boldsymbol{x}-\boldsymbol{x}_{k}\right\|^{2} \\
+&\leqslant
+ f\left(\boldsymbol{x}_{k}\right)+\left\langle\nabla f\left(\boldsymbol{x}_{k}\right), \boldsymbol{x}-\boldsymbol{x}_{k}\right\rangle+\frac{L}{2}\left\|\boldsymbol{x}-\boldsymbol{x}_{k}\right\|^{2} \\
+&= f\left(\boldsymbol{x}_{k}\right)+\nabla f\left(\boldsymbol{x}_{k}\right)^{\top}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)+\frac{L}{2}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)^{\top}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)\\
+&=f(x_k)+\frac{L}{2}\left(\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)^{\top}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)+\frac{2}{L}\nabla f\left(\boldsymbol{x}_{k}\right)^{\top}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)\right)\\
+&=f(x_k)+\frac{L}{2}\left(\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)^{\top}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)+\frac{2}{L}\nabla f\left(\boldsymbol{x}_{k}\right)^{\top}\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)+\frac{1}{L^2}\nabla f(x_k)^\top\nabla f(x_k)\right) -\frac{1}{2L}\nabla f(x_k)^\top\nabla f(x_k)\\
+&=f(x_k)+\frac{L}{2}\left(\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)+\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)^{\top}\left(\left(\boldsymbol{x}-\boldsymbol{x}_{k}\right)+\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)-\frac{1}{2L}\nabla f(x_k)^\top\nabla f(x_k)\\
+&=\frac{L}{2}\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)\right\|_{2}^{2}+\mathrm{const}
 \end{aligned}
 $$
+其中$\mathrm{const}=f(x_k)--\frac{1}{2 L} \nabla f\left(x_{k}\right)^{\top} \nabla f\left(x_{k}\right)$
+
+## 11.9
+
+参见 11.8
+
+## 11.10
+
+参见11.8
+
+## 11.11
+
+$$
+\boldsymbol{x}_{k+1}=\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)
+$$
+[解析]:这个很容易理解,因为2范数的最小值为0,当$\boldsymbol{x}_{k+1}=\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)$时,$\hat{f}(x_{k+1})\leqslant\hat{f}(x_k)$恒成立,同理$\hat{f}(x_{k+2})\leqslant\hat{f}(x_{k+1}), \cdots$,因此反复迭代能够使$\hat{f}(x)$的值不断下降。
+
+## 11.12
+
+$$
+\boldsymbol{x}_{k+1}=\underset{\boldsymbol{x}}{\arg \min } \frac{L}{2}\left\|\boldsymbol{x}-\left(\boldsymbol{x}_{k}-\frac{1}{L} \nabla f\left(\boldsymbol{x}_{k}\right)\right)\right\|_{2}^{2}+\lambda\|\boldsymbol{x}\|_{1}
+$$
+
+[解析]:式11.11是用来优化$\hat{f}(x)$的,而对于式11.8,优化的函数为$f(x)+\lambda\left\Vert x\right\Vert_1$,由泰勒展开公式,优化的目标可近似为$\hat{f}(x)+\lambda\Vert x\Vert_1$,根据式11.10可知,$x$的更新由式11.12决定。
 
 ## 11.13
-$$\boldsymbol x_{\boldsymbol k+\boldsymbol 1}=\underset{\boldsymbol x}{argmin}\frac{L}{2}\left \| \boldsymbol x -\boldsymbol z\right \|_{2}^{2}+\lambda \left \| \boldsymbol x \right \|_{1}$$
-[推导]:假设目标函数为$g(\boldsymbol x)$,则
+
+$$
+\boldsymbol{x}_{k+1}=\underset{\boldsymbol{x}}{\arg \min } \frac{L}{2}\|\boldsymbol{x}-\boldsymbol{z}\|_{2}^{2}+\lambda\|\boldsymbol{x}\|
+$$
+
+[解析]:这里将式11.12的优化步骤拆分成了两步,首先令$z=x_{k}-\frac{1}{L} \nabla f\left(x_{k}\right)$以计算$z$,然后再求解式11.13,得到的结果是一致的。
+
+## 11.14
+
+$$
+x_{k+1}^{i}=\left\{\begin{array}{ll}
+{z^{i}-\lambda / L,} & {\lambda / L<z^{i}} \\
+{0,} & {\left|z^{i}\right| \leqslant \lambda / L} \\
+{z^{i}+\lambda / L,} & {z^{i}<-\lambda / L}
+\end{array}\right.
+$$
+
+[解析]:令优化函数
 $$
 \begin{aligned}
-g(\boldsymbol x)
-& =\frac{L}{2}\left \|\boldsymbol  x \boldsymbol -\boldsymbol z\right \|_{2}^{2}+\lambda \left \| \boldsymbol x \right \|_{1}\\
-& =\frac{L}{2}\sum_{i=1}^{d}\left \| x^{i} -z^{i}\right \|_{2}^{2}+\lambda \sum_{i=1}^{d}\left \| x^{i} \right \|_{1} \\
-& =\sum_{i=1}^{d}(\frac{L}{2}(x^{i}-z^{i})^{2}+\lambda \left | x^{i}\right |)&
+g(\boldsymbol{x}) &=\frac{L}{2}\|\boldsymbol{x}-\boldsymbol{z}\|_{2}^{2}+\lambda\|\boldsymbol{x}\|_{1} \\
+&=\frac{L}{2} \sum_{i=1}^{d}\left\|x^{i}-z^{i}\right\|_{2}^{2}+\lambda \sum_{i=1}^{d}\left\|x^{i}\right\|_{1} \\
+&=\sum_{i=1}^{d}\left(\frac{L}{2}\left(x^{i}-z^{i}\right)^{2}+\lambda\left|x^{i}\right|\right)
 \end{aligned}
 $$
-由上式可见, $g(\boldsymbol x)$可以拆成 d个独立的函 数,求解式(11.13)可以分别求解d个独立的目标函数。 
-针对目标函数$g(x^{i})=\frac{L}{2}(x^{i}-z^{i})^{2}+\lambda \left | x^{i}\right |$,通过求导求解极值:
-$$\frac{dg(x^{i})}{dx^{i}}=L(x^{i}-z^{i})+\lambda sgn(x^{i})$$
-其中$$sgn(x^{i})=\left\{\begin{matrix}
-1, &x^{i}>0\\ 
- -1,& x^{i}<0
-\end{matrix}\right.$$
-令导数为0,可得:$$x^{i}=z^{i}-\frac{\lambda }{L}sgn(x^{i})$$可分为三种情况:
-1. 当$z^{i}>\frac{\lambda }{L}$时:
-    (1)假设此时的根$x^{i}<0$,则$sgn(x^{i})=-1$,所以$x^{i}=z^{i}+\frac{\lambda }{L}>0$,与假设矛盾。
-    (2)假设此时的根$x^{i}>0$,则$sgn(x^{i})=1$,所以$x^{i}=z^{i}-\frac{\lambda }{L}>0$,成立。
-2. 当$z^{i}<-\frac{\lambda }{L}$时:
-    (1)假设此时的根$x^{i}>0$,则$sgn(x^{i})=1$,所以$x^{i}=z^{i}-\frac{\lambda }{L}<0$,与假设矛盾。
-    (2)假设此时的根$x^{i}<0$,则$sgn(x^{i})=-1$,所以$x^{i}=z^{i}+\frac{\lambda }{L}<0$,成立。
-3. 当$\left |z^{i}  \right |<\frac{\lambda }{L}$时:
-    (1)假设此时的根$x^{i}>0$,则$sgn(x^{i})=1$,所以$x^{i}=z^{i}-\frac{\lambda }{L}<0$,与假设矛盾。
-    (2)假设此时的根$x^{i}<0$,则$sgn(x^{i})=-1$,所以$x^{i}=z^{i}+\frac{\lambda }{L}>0$,与假设矛盾,此时$x^{i}=0$为函数的极小值。
-综上所述可得函数闭式解如下:
-$$x_{k+1}^{i}=\left\{\begin{matrix}
-z^{i}-\frac{\lambda }{L}, &\frac{\lambda }{L}< z^{i}\\ 
-0, & \left |z^{i}  \right |\leqslant \frac{\lambda }{L}\\ 
-z^{i}+\frac{\lambda }{L}, & z^{i}<-\frac{\lambda }{L}
-\end{matrix}\right.$$
+
+这个式子表明优化$g(\boldsymbol{x})$可以被拆解成优化$\boldsymbol{x}$的各个分量的形式,对分量$x_i$,其优化函数
+$$
+g\left(x^{i}\right)=\frac{L}{2}\left(x^{i}-z^{i}\right)^{2}+\lambda\left|x^{i}\right|
+$$
+求导得
+$$
+\frac{d g\left(x^{i}\right)}{d x^{i}}=L\left(x^{i}-z^{i}\right)+\lambda s g n\left(x^{i}\right)
+$$
+其中
+$$
+\operatorname{sgn}\left(x^{i}\right)=\left\{\begin{array}{ll}
+{1,} & {x^{i}>0} \\
+{-1,} & {x^{i}<0}
+\end{array}\right.
+$$
+称为[符号函数](https://zh.wikipedia.org/zh-hans/符号函数),对于$x_i=0$的特殊情况,由于$\vert x_i \vert$在$x_i=0$点出不光滑,所以其不可导,需单独讨论。令$\frac{d g\left(x^{i}\right)}{d x^{i}}=0$有
+$$
+x^{i}=z^{i}-\frac{\lambda}{L} \operatorname{sgn}\left(x^{i}\right)
+$$
+此式的解即为优化目标$g(x^i)$的极值点,因为等式两端均含有未知变量$x^i$,故分情况讨论。
+
+1. 当$z^i>\frac{\lambda}{L}$时:
+
+   a. 假设$x^i<0$,则$\textrm{sgn}(x^i)=-1$,那么有$x^i=z^i+\frac{\lambda}{L}>0$与假设矛盾;
+
+   b. 假设$x^i>0$,则$\textrm{sgn}(x^i)=1$,那么有$x^i=z^i-\frac{\lambda}{L}<0$和假设相符和,下面来检验$x^i=z^i-\frac{\lambda}{L}$是否是使函数$g(x^i)$的取得最小值。当$x^i<0$时,
+   $$
+   \frac{d g\left(x^{i}\right)}{d x^{i}}=L\left(x^{i}-z^{i}\right)-\lambda
+   $$
+   在定义域内连续可导,则$g(x^i)$的二阶导数
+   $$
+   \frac{d^2 g\left(x^{i}\right)}{{d x^{i}}^2}=L
+   $$
+   由于$L$是Lipschitz常数恒大于0,因为$x^i=z^i-\frac{\lambda}{L}$是函数$g(x^i)$的最小值。
+
+2. 当$z_i<-\frac{\lambda}{L}$时:
+
+   a. 假设$x^i>0$,则$\textrm{sgn}(x^i)=1$,那么有$x^i=z^i-\frac{\lambda}{L}<0$与假设矛盾;
+
+   b. 假设$x^i<0$,则$\textrm{sgn}(x^i)=-1$,那么有$x^i=z^i+\frac{\lambda}{L}<0$与假设相符,由上述二阶导数恒大于0可知,$x^i=z^i+\frac{\lambda}{L}$是$g(x^i)$的最小值。
+
+3. 当$-\frac{\lambda}{L} \leqslant z_i \leqslant \frac{\lambda}{L}$时:
+
+   a. 假设$x^i>0$,则$\textrm{sgn}(x^i)=1$,那么有$x^i=z^i-\frac{\lambda}{L}\leqslant 0$与假设矛盾;
+
+   b. 假设$x^i<0$,则$\textrm{sgn}(x^i)=-1$,那么有$x^i=z^i+\frac{\lambda}{L}\geqslant 0$与假设矛盾。
+
+4. 最后讨论$x_i=0$的情况,此时$g(x^i)=\frac{L}{2}\left({z^i}\right)^2$
+
+   a. 当$\vert z^i\vert>\frac{\lambda}{L}$时,由上述推导可知$g(x_i)$的最小值在$x^i=z^i-\frac{\lambda}{L}$处取得,令
+   $$
+   \begin{align}
+   f(x^i)&=g(x^i)\vert_{x^i=0}-g(x^i)\vert_{x_i=z^i-\frac{\lambda}{L}}\\
+   &=\frac{L}{2}\left({z^i}\right)^2 - \left(\lambda z^i-\frac{\lambda^2}{2L}\right)\\
+   &=\frac{L}{2}\left(z^i-\frac{\lambda}{L}\right)^2\\
+   &>0
+   \end{align}
+   $$
+   因此当$\vert z^i\vert>\frac{\lambda}{L}$时,$x_i=0$不会是函数$g(x_i)$的最小值。
+
+   b. 当$-\frac{\lambda}{L} \leqslant z_i \leqslant \frac{\lambda}{L}$时,对于任何$\Delta x\neq 0$有
+   $$
+   \begin{aligned}
+   g(\Delta x) &=\frac{L}{2}\left(\Delta x-z^{i}\right)^{2}+\lambda|\Delta x| \\
+   &=\frac{L}{2}\left((\Delta x)^{2}-2 \Delta x \cdot z^{i}+\frac{2 \lambda}{L}|\Delta x|\right)+\frac{L}{2}\left(z^{i}\right)^{2} \\
+   &>\frac{L}{2}\left((\Delta x)^{2}-2 \Delta x \cdot z^{i}+\frac{2 \lambda}{L}\Delta x\right)+\frac{L}{2}\left(z^{i}\right)^{2}\\
+   &>\frac{L}{2}\left(\Delta x\right)^2+\frac{L}{2}\left(z^{i}\right)^{2}\\
+   &>g(x^i)\vert_{x^i=0}
+   \end{aligned}
+   $$
+   因此$x^i=0$是$g(x^i)$的最小值点。
+
+5. 综上所述,11.14成立
+
+   
+
+## 11.15
+
+$$
+\min _{\mathbf{B}, \boldsymbol{\alpha}_{i}} \sum_{i=1}^{m}\left\|\boldsymbol{x}_{i}-\mathbf{B} \boldsymbol{\alpha}_{i}\right\|_{2}^{2}+\lambda \sum_{i=1}^{m}\left\|\boldsymbol{\alpha}_{i}\right\|_{1}
+$$
+[解析]:这个式子表达的意思很容易理解,即希望样本$x_i$的稀疏表示$\boldsymbol{\alpha}_i$通过字典$\mathbf{B}$重构后和样本$x_i$的原始表示尽量相似,如果满足这个条件,那么稀疏表示$\boldsymbol{\alpha}_i$是比较好的。后面的1范数项是为了使表示更加稀疏。
+
+## 11.16
+
+$$
+\min _{\boldsymbol{\alpha}_{i}}\left\|\boldsymbol{x}_{i}-\mathbf{B} \boldsymbol{\alpha}_{i}\right\|_{2}^{2}+\lambda\left\|\boldsymbol{\alpha}_{i}\right\|_{1}
+$$
+
+[解析]:为了优化11.15,我们采用变量交替优化的方式(有点类似EM算法),首先固定变量$\mathbf{B}$,则11.15求解的是$m$个样本相加的最小值,因为公式里没有样本之间的交互(即文中所述$\alpha_{i}^{u} \alpha_{i}^{v}(u \neq v)$这样的形式),因此可以对每个变量做分别的优化求出$\boldsymbol{\alpha}_i$,求解方法见11.13,11.14。
+
+## 11.17
+
+$$
+\min _{\mathbf{B}}\|\mathbf{X}-\mathbf{B} \mathbf{A}\|_{F}^{2}
+$$
+
+[解析]:这是优化11.15的第二步,固定住$\boldsymbol{\alpha}_i, i=1, 2,\dots,m$,此时式11.15的第二项为一个常数,优化11.15即优化$\min _{\mathbf{B}} \sum_{i=1}^{m}\left\|\boldsymbol{x}_{i}-\mathbf{B} \boldsymbol{\alpha}_{i}\right\|_{2}^{2}$。其写成矩阵相乘的形式为$\min _{\mathbf{B}}\|\mathbf{X}-\mathbf{B} \mathbf{A}\|_{2}^{2}$,将2范数扩展到$F$范数即得优化目标为$\min _{\mathbf{B}}\|\mathbf{X}-\mathbf{B} \mathbf{A}\|_{F}^{2}$。
 
 ## 11.18
-$$\begin{aligned}
-\underset{\boldsymbol B}{min}\left \|\boldsymbol  X-\boldsymbol B\boldsymbol A \right \|_{F}^{2}
-& =\underset{b_{i}}{min}\left \| \boldsymbol X-\sum_{j=1}^{k}b_{j}\alpha ^{j} \right \|_{F}^{2}\\
-& =\underset{b_{i}}{min}\left \| \left (\boldsymbol X-\sum_{j\neq i}b_{j}\alpha ^{j} \right )- b_{i}\alpha ^{i}\right \|_{F}^{2} \\
-& =\underset{b_{i}}{min}\left \|\boldsymbol  E_{\boldsymbol i}-b_{i}\alpha ^{i} \right \|_{F}^{2} &
+
+$$
+\begin{aligned}
+\min _{\mathbf{B}}\|\mathbf{X}-\mathbf{B} \mathbf{A}\|_{F}^{2} &=\min _{\boldsymbol{b}_{i}}\left\|\mathbf{X}-\sum_{j=1}^{k} \boldsymbol{b}_{j} \boldsymbol{\alpha}^{j}\right\|_{F}^{2} \\
+&=\min _{\boldsymbol{b}_{i}}\left\|\left(\mathbf{X}-\sum_{j \neq i} \boldsymbol{b}_{j} \boldsymbol{\alpha}^{j}\right)-\boldsymbol{b}_{i} \boldsymbol{\alpha}^{i}\right\| _{F}^{2} \\
+&=\min _{\boldsymbol{b}_{i}}\left\|\mathbf{E}_{i}-\boldsymbol{b}_{i} \boldsymbol{\alpha}^{i}\right\|_{F}^{2}
 \end{aligned}
 $$
-[推导]:此处只推导一下$BA=\sum_{j=1}^{k}\boldsymbol b_{\boldsymbol j}\boldsymbol \alpha ^{\boldsymbol j}$,其中$\boldsymbol b_{\boldsymbol j}$表示**B**的第j列,$\boldsymbol \alpha ^{\boldsymbol j}$表示**A**的第j行。
-然后,用$b_{j}^{i}$,$\alpha _{j}^{i}$分别表示**B**和**A**的第i行第j列的元素,首先计算**BA**:
+[解析]:这个公式难点在于推导$\mathbf{B}\mathbf{A}=\sum_{j=1}^k\boldsymbol{b}_j\boldsymbol{\alpha}^j$。大致的思路是$\boldsymbol{b}_{j} \boldsymbol{\alpha}^{j}$会生成和矩阵$\mathbf{B}\mathbf{A}$同样维度的矩阵,这个矩阵对应位置的元素是$\mathbf{B}\mathbf{A}$中对应位置元素的一个分量,这样的分量矩阵一共有$k$个,把所有分量矩阵加起来就得到了最终结果。推导过程如下:
 $$
 \begin{aligned}
 \boldsymbol B\boldsymbol A
@@ -91,7 +276,7 @@ b_{1}^{2} &b_{2}^{2}  & \cdot  & \cdot  & \cdot  & b_{k}^{2}\\
 \end{bmatrix}_{d\times m} &
 \end{aligned}
 $$
-然后计算$\boldsymbol b_{\boldsymbol j}\boldsymbol \alpha ^{\boldsymbol j}$:
+
 $$
 \begin{aligned}
 \boldsymbol b_{\boldsymbol j}\boldsymbol \alpha ^{\boldsymbol j}
@@ -115,6 +300,7 @@ b_{j}^{d}\alpha _{1}^{j}& b_{j}^{d}\alpha _{2}^{j}  & \cdot  & \cdot  &\cdot   &
 \end{bmatrix}_{d\times m} &
 \end{aligned}
 $$
+
 求和可得:
 $$
 \begin{aligned}
@@ -139,3 +325,7 @@ b_{1}^{j}\\ b_{w}^{j}
 \end{bmatrix}_{d\times m} &
 \end{aligned}
 $$
+得证。
+
+将矩阵$\mathbf{B}$分解成矩阵列$\boldsymbol{b}_j,j=1,2,\dots,k$带来一个好处,即和11.16的原理相同,矩阵列与列之间无关,因此可以分别优化各个列,即将$\min_\mathbf{B}\Vert\dots\mathbf{B}\dots\Vert^2_F$转化成了$\min_{b_i}\Vert\cdots\boldsymbol{b}_i\cdots\Vert^2_F$,得到第三行的等式之后,再利用文中介绍的KSVD算法求解即可。
+