瀏覽代碼

fix 16.31

archwalker 5 年之前
父節點
當前提交
8f23570e06
共有 1 個文件被更改,包括 2 次插入2 次删除
  1. 2 2
      docs/chapter16/chapter16.md

+ 2 - 2
docs/chapter16/chapter16.md

@@ -156,11 +156,11 @@ $$
 $$
 \frac{1}{t+1}=\alpha
 $$
-可知
+可知,若下式成立,则公式16.31成立
 $$
 r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
 $$
-而由$\gamma$折扣累积奖赏可估计得到
+而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立