@@ -6,7 +6,7 @@ P\left(x_{1}, y_{1}, \ldots, x_{n}, y_{n}\right)=P\left(y_{1}\right) P\left(x_{1
\end{aligned}
$$
-[解析]:所有的相乘关系都表示概率的相互独立。三种概率$P\left(y_{i}\right), P\left(x_{i} | y_{i}\right), P\left(x_{i} | y_{i}\right)$ 分别表示初始状态概率,输出观测概率和条件转移概率。
+[解析]:所有的相乘关系都表示概率的相互独立。三种概率$P\left(y_{i}\right), P\left(x_{i} | y_{i}\right), P\left(y_{i} | y_{i-1}\right)$ 分别表示初始状态概率,输出观测概率和条件转移概率。
## 14.2
@@ -156,11 +156,11 @@ $$
\frac{1}{t+1}=\alpha
-可知
+可知,若下式成立,则公式16.31成立
r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
-而由$\gamma$折扣累积奖赏可估计得到。
+而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立。
@@ -7,6 +7,13 @@
<meta name="description" content="Description">
<meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
<link rel="stylesheet" href="//unpkg.com/docsify/lib/themes/vue.css">
+ <style>
+ .katex-display > .katex {
+ max-width: 100%;
+ overflow-x: auto;
+ overflow-y: hidden;
+ }
+ </style>
</head>
<body>
<div id="app"></div>