@@ -40,9 +40,7 @@ $$
$$
\pi(x,a)=P(state=x\mid action=a)
-表示在状态 **x**下选择动作 **a**的概率,
-
-又因为动作事件之间两两互斥且和为动作空间,由全概率展开公式
+表示执行动作a以后出现状态x的概率,又因为动作事件之间两两互斥且和为动作空间,由全概率展开公式
P(A)=\sum_{i=1}^{\infty}P(B_{i})P(A\mid B_{i})