пре 3 година · aed26bf844
--- a/docs/chapter16/chapter16.md
+++ b/docs/chapter16/chapter16.md
@@ -148,19 +148,14 @@ $$
 
															 Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\alpha (R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')-Q_{t}^{\pi}(x,a))
														
 
															 $$
														
 
															-[推导]：对比公式16.29
														
 
															-$$
														
 
															-Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\frac{1}{t+1}(r_{t+1}-Q_{t}^{\pi}(x,a))
														
 
															-$$
														
 
															-以及由
														
 
															-$$
														
 
															-\frac{1}{t+1}=\alpha
														
 
															-$$
														
 
															-可知，若下式成立，则公式16.31成立
														
 
															-$$
														
 
															-r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
														
 
															-$$
														
 
															-而$r_{t+1}$表示$t+1$步的奖赏，即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣，因此这个式子成立。
														
 
															+[推导]：根据累计折扣奖励的定义（P373）可知：
														
 
															+
														
 
															+$$Q_{t+1}^{\pi}(x, a)=\gamma Q_{t}^{\pi}(x', a')+R_{x\to x'}^{a}$$
														
 
															+
														
 
															+
														
 
															+将上式进行类似于公式(16.29)的形式改写，可以得到：
														
 
															+$$Q_{t+1}^{\pi}(x, a)= Q_{t}^{\pi}(x, a) + (R_{x\to x'}^{a} + \gamma Q_{t}^{\pi}(x', a') -  Q_{t}^{\pi}(x, a) )$$
														
 
															+括号中的部分即为累计折扣奖励下的需要学习的增量，然后乘以学习率$\alpha$，即可得到公式16.31.