@@ -38,9 +38,9 @@ $$
因为
$$
-\pi(x,a)=P(state=x\mid action=a)
+\pi(x,a)=P(action=a|state=x)
-表示执行动作a以后出现状态x的概率,又因为动作事件之间两两互斥且和为动作空间,由全概率展开公式
+表示在状态x下选择动作a的概率,又因为动作事件之间两两互斥且和为动作空间,由全概率展开公式
P(A)=\sum_{i=1}^{\infty}P(B_{i})P(A\mid B_{i})