Browse Source

fix 16.31

archwalker 5 năm trước cách đây
mục cha
commit
8f23570e06
1 tập tin đã thay đổi với 2 bổ sung2 xóa
  1. 2 2
      docs/chapter16/chapter16.md

+ 2 - 2
docs/chapter16/chapter16.md

@@ -156,11 +156,11 @@ $$
 $$
 \frac{1}{t+1}=\alpha
 $$
-可知
+可知,若下式成立,则公式16.31成立
 $$
 r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
 $$
-而由$\gamma$折扣累积奖赏可估计得到
+而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立