在(Andrew Barto 和 Richard S. Sutton)所著的“强化学习:介绍”一书的第 117 页中,指出
使用模型(例如完整的 DP 或 MDP),状态值(例如足以确定一个策略 - 只需展望下一步并选择奖励和状态的最佳组合。然而,如果没有模型,仅靠状态值是不够的。必须明确地估计每个动作的值——例如以在建议策略时有用。
有什么例子可以说明这一点?为什么不能在没有状态模型的情况下仅使用中的贝尔曼方程的一种形式通过例如值迭代来确定最佳策略?
在(Andrew Barto 和 Richard S. Sutton)所著的“强化学习:介绍”一书的第 117 页中,指出
使用模型(例如完整的 DP 或 MDP),状态值(例如足以确定一个策略 - 只需展望下一步并选择奖励和状态的最佳组合。然而,如果没有模型,仅靠状态值是不够的。必须明确地估计每个动作的值——例如以在建议策略时有用。
有什么例子可以说明这一点?为什么不能在没有状态模型的情况下仅使用中的贝尔曼方程的一种形式通过例如值迭代来确定最佳策略?
足以准确地确定策略,因为您可以访问模型。特别是,您可以访问有关 MDP 过渡结构的信息(您知道如何展望未来)。如果没有模型,您可能知道您想到达,但您不知道要采取什么行动才能到达那里。Q 值消除了估计基础模型的需要,只需了解在一个状态下采取什么行动是好的。
Szepesvari 在第 14 页的调查中对此进行了讨论,其中指出知道或、和足以让 RL 代理以最佳方式行动。使用他们的符号,和本质上是模型。