|
@@ -148,19 +148,14 @@ $$
|
|
|
Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\alpha (R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')-Q_{t}^{\pi}(x,a))
|
|
Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\alpha (R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')-Q_{t}^{\pi}(x,a))
|
|
|
$$
|
|
$$
|
|
|
|
|
|
|
|
-[推导]:对比公式16.29
|
|
|
|
|
-$$
|
|
|
|
|
-Q_{t+1}^{\pi}(x,a)=Q_{t}^{\pi}(x,a)+\frac{1}{t+1}(r_{t+1}-Q_{t}^{\pi}(x,a))
|
|
|
|
|
-$$
|
|
|
|
|
-以及由
|
|
|
|
|
-$$
|
|
|
|
|
-\frac{1}{t+1}=\alpha
|
|
|
|
|
-$$
|
|
|
|
|
-可知,若下式成立,则公式16.31成立
|
|
|
|
|
-$$
|
|
|
|
|
-r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
|
|
|
|
|
-$$
|
|
|
|
|
-而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立。
|
|
|
|
|
|
|
+[推导]:根据累计折扣奖励的定义(P373)可知:
|
|
|
|
|
+
|
|
|
|
|
+$$Q_{t+1}^{\pi}(x, a)=\gamma Q_{t}^{\pi}(x', a')+R_{x\to x'}^{a}$$
|
|
|
|
|
+
|
|
|
|
|
+
|
|
|
|
|
+将上式进行类似于公式(16.29)的形式改写,可以得到:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+$$Q_{t+1}^{\pi}(x, a)= Q_{t}^{\pi}(x, a) + (R_{x\to x'}^{a} + \gamma Q_{t}^{\pi}(x', a') - Q_{t}^{\pi}(x, a) )$$
|
|
|
|
|
|
|
|
|
|
+括号中的部分即为累计折扣奖励下的需要学习的增量,然后乘以学习率$\alpha$,即可得到公式16.31.
|