|
@@ -38,9 +38,9 @@ $$
|
|
|
|
|
|
|
|
因为
|
|
因为
|
|
|
$$
|
|
$$
|
|
|
-\pi(x,a)=P(state=x\mid action=a)
|
|
|
|
|
|
|
+\pi(x,a)=P(action=a|state=x)
|
|
|
$$
|
|
$$
|
|
|
-表示执行动作a以后出现状态x的概率,又因为动作事件之间两两互斥且和为动作空间,由全概率展开公式
|
|
|
|
|
|
|
+表示在状态x下选择动作a的概率,又因为动作事件之间两两互斥且和为动作空间,由全概率展开公式
|
|
|
$$
|
|
$$
|
|
|
P(A)=\sum_{i=1}^{\infty}P(B_{i})P(A\mid B_{i})
|
|
P(A)=\sum_{i=1}^{\infty}P(B_{i})P(A\mid B_{i})
|
|
|
$$
|
|
$$
|