Explorar o código

Merge branch 'master' of github.com:datawhalechina/pumpkin-book

Sm1les %!s(int64=5) %!d(string=hai) anos
pai
achega
c68b571949
Modificáronse 3 ficheiros con 10 adicións e 3 borrados
  1. 1 1
      docs/chapter14/chapter14.md
  2. 2 2
      docs/chapter16/chapter16.md
  3. 7 0
      docs/index.html

+ 1 - 1
docs/chapter14/chapter14.md

@@ -6,7 +6,7 @@ P\left(x_{1}, y_{1}, \ldots, x_{n}, y_{n}\right)=P\left(y_{1}\right) P\left(x_{1
 \end{aligned}
 $$
 
-[解析]:所有的相乘关系都表示概率的相互独立。三种概率$P\left(y_{i}\right), P\left(x_{i} | y_{i}\right), P\left(x_{i} | y_{i}\right)$ 分别表示初始状态概率,输出观测概率和条件转移概率。
+[解析]:所有的相乘关系都表示概率的相互独立。三种概率$P\left(y_{i}\right), P\left(x_{i} | y_{i}\right), P\left(y_{i} | y_{i-1}\right)$ 分别表示初始状态概率,输出观测概率和条件转移概率。
 
 ## 14.2
 

+ 2 - 2
docs/chapter16/chapter16.md

@@ -156,11 +156,11 @@ $$
 $$
 \frac{1}{t+1}=\alpha
 $$
-可知
+可知,若下式成立,则公式16.31成立
 $$
 r_{t+1}=R_{x\rightarrow x{}'}^{a}+\gamma Q_{t}^{\pi}(x{}',a{}')
 $$
-而由$\gamma$折扣累积奖赏可估计得到
+而$r_{t+1}$表示$t+1$步的奖赏,即状态$x$变化到$x'$的奖赏加上前面$t$步奖赏总和$Q_{t}^{\pi}(x{}',a{}')$的$\gamma$折扣,因此这个式子成立
 
 
 

+ 7 - 0
docs/index.html

@@ -7,6 +7,13 @@
   <meta name="description" content="Description">
   <meta name="viewport" content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
   <link rel="stylesheet" href="//unpkg.com/docsify/lib/themes/vue.css">
+  <style>
+    .katex-display > .katex {
+      max-width: 100%;
+      overflow-x: auto;
+      overflow-y: hidden;
+    }
+  </style>
 </head>
 <body>
   <div id="app"></div>