在Sutton 和 Barto 的书第 79 页的方程 4.9 中,我们有(对于策略迭代算法):
在哪里是以前的政策和 是新政策。因此在迭代中它必须意味着
现在对于标记为红色的相关状态 -
所以= -1 对于所有四个周围状态
r = -1 对于所有四个周围状态
p(s',r|s,a) = 1 对于所有四个周围状态
因此,这应该给我们一个纵横交错的符号(4个方向箭头)(s) 但这里给出了一个左箭头符号。
我的计算出了什么问题。
在Sutton 和 Barto 的书第 79 页的方程 4.9 中,我们有(对于策略迭代算法):
在哪里是以前的政策和 是新政策。因此在迭代中它必须意味着
现在对于标记为红色的相关状态 -
所以= -1 对于所有四个周围状态
r = -1 对于所有四个周围状态
p(s',r|s,a) = 1 对于所有四个周围状态
因此,这应该给我们一个纵横交错的符号(4个方向箭头)(s) 但这里给出了一个左箭头符号。
我的计算出了什么问题。
您的计算是正确的,但您误解了方程式和图表。指数在因为该图仅指策略评估更新迭代,与策略更新步骤无关(使用符号并且没有提及)。
策略改进包括对状态的多次扫描,以全面评估当前策略并估计其价值函数。之后,它会在单独的策略改进步骤中更新策略。有两个循环 - 一个内部循环由在方程和图表中,加上一个没有给出索引符号的外循环。
该图未显示增量来自外部循环的策略迭代策略。相反,它显示“贪婪的政策" 内部循环中的步骤 - 您可以将其视为策略如果您在该迭代之后终止策略评估阶段,您将进入第一个外部循环的内循环。
该图仅显示了单个外循环的策略迭代行为。它至少展示了两件有趣的事情:
在这个非常简单的环境中,如果您运行一个具有足够长策略评估阶段的外部循环() 你会找到最优策略。
甚至在价值函数估计接近收敛之前(高),可以从新估计中得出的政策可用于改进政策。这导致了值迭代方法的想法。