人工智能 - 策略迭代算法不满足方程 - 吾爱随笔录

人工智能价值函数政策迭代贝尔曼方程最优策略

2021-10-23 04:41:30

在Sutton 和 Barto 的书第 79 页的方程 4.9 中，我们有（对于策略迭代算法）：

$\pi ^{'}(s) = arg \max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi}(s')]$

在哪里 $\pi$ 是以前的政策和 $\pi ^{'}$ 是新政策。因此在迭代中 $k$ 它必须意味着

$\pi _{k+1}(s) = arg \max_{a}\sum_{s',r}p(s',r|s,a)[r+\gamma v_{\pi_{k}}(s')]$

但在同一本书第 77 页给出的示例中，我们有：

现在对于标记为红色的相关状态 -

所以 $v_{\pi_{1}}$ = -1 对于所有四个周围状态

r = -1 对于所有四个周围状态

p(s',r|s,a) = 1 对于所有四个周围状态

$\pi _{2}(s) = arg \max_{a}[1*[-1+1*-1],1*[-1+1*-1],1*[-1+1*-1],1*[-1+1*-1]]$ $\pi _{2}(s) = arg \max_{a}(-2,-2,-2,-2)$

因此，这应该给我们一个纵横交错的符号（4个方向箭头） $\pi_{2}$ (s) 但这里给出了一个左箭头符号。

我的计算出了什么问题。

1个回答

您的计算是正确的，但您误解了方程式和图表。指数 $k$ 在 $v_k$ 因为该图仅指策略评估更新迭代，与策略更新步骤无关（使用符号 $\pi'$ 并且没有提及 $k$ ）。

策略改进包括对状态的多次扫描，以全面评估当前策略并估计其价值函数。之后，它会在单独的策略改进步骤中更新策略。有两个循环 - 一个内部循环由 $k$ 在方程和图表中，加上一个没有给出索引符号的外循环。

该图未显示增量 $\pi'$ 来自外部循环的策略迭代策略。相反，它显示“贪婪的政策 $v_k$ " 内部循环中的步骤 - 您可以将其视为策略 $\pi'$ 如果您在该迭代之后终止策略评估阶段，您将进入第一个外部循环 $k$ 的内循环。

该图仅显示了单个外循环的策略迭代行为。它至少展示了两件有趣的事情：

其它你可能感兴趣的问题