Jian.Yin пре 3 година
родитељ
комит
aed26bf844
1 измењених фајлова са 8 додато и 13 уклоњено
  1. 8 13
      docs/chapter16/chapter16.md

+ 8 - 13
docs/chapter16/chapter16.md

@@ -148,19 +148,14 @@ $$
 Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\alpha (R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')-Q_{t}^{\pi}(x,a))
 Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\alpha (R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')-Q_{t}^{\pi}(x,a))
 $$
 $$
 
 
-[推导]:对比公式16.29
-$$
-Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\frac{1}{t+1}(r_{t+1}-Q_{t}^{\pi}(x,a))
-$$
-以及由
-$$
-\frac{1}{t+1}=\alpha
-$$
-可知,若下式成立,则公式16.31成立
-$$
-r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
-$$
-而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立。
+[推导]:根据累计折扣奖励的定义(P373)可知:
+
+$$Q_{t+1}^{\pi}(x, a)=\gamma Q_{t}^{\pi}(x', a')+R_{x\to x'}^{a}$$
+
+
+将上式进行类似于公式(16.29)的形式改写,可以得到:
 
 
 
 
+$$Q_{t+1}^{\pi}(x, a)= Q_{t}^{\pi}(x, a) + (R_{x\to x'}^{a} + \gamma Q_{t}^{\pi}(x', a') -  Q_{t}^{\pi}(x, a) )$$
 
 
+括号中的部分即为累计折扣奖励下的需要学习的增量,然后乘以学习率$\alpha$,即可得到公式16.31.