浏览代码

fix 16.31

archwalker 5 年之前
父节点
当前提交
8f23570e06
共有 1 个文件被更改,包括 2 次插入2 次删除
  1. 2 2
      docs/chapter16/chapter16.md

+ 2 - 2
docs/chapter16/chapter16.md

@@ -156,11 +156,11 @@ $$
 $$
 \frac{1}{t+1}=\alpha
 $$
-可知
+可知,若下式成立,则公式16.31成立
 $$
 r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
 $$
-而由$\gamma$折扣累积奖赏可估计得到
+而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立