@@ -156,11 +156,11 @@ $$
$$
\frac{1}{t+1}=\alpha
-可知
+可知,若下式成立,则公式16.31成立
r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
-而由$\gamma$折扣累积奖赏可估计得到。
+而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立。