我正在阅读 Sutton 和 Barto 的“强化学习 - 简介”。
在页。59、状态值函数有贝尔曼方程
我不明白为什么期望值在最后一个表达式中幸存下来。期望值的定义是, 不是
我不知道我的问题是否清楚。在定义的最后一个方程中, 我不会把期望值放在里面
我正在阅读 Sutton 和 Barto 的“强化学习 - 简介”。
在页。59、状态值函数有贝尔曼方程
我不明白为什么期望值在最后一个表达式中幸存下来。期望值的定义是, 不是
我不知道我的问题是否清楚。在定义的最后一个方程中, 我不会把期望值放在里面
使用预期值,您有相当大的自由来扩展/解决或不解决。
例如,假设分布和独立解决(即值不相关):
MDP 的每个时间步都以这种方式独立,因此您可以在处理贝尔曼方程中预期的和和乘积时使用它(假设您按时间步分开项)。
对于贝尔曼方程,目标是关联到,并且值的定义是作为期望给出的,因此保留第二个期望而不是扩展它是有意义的。
不过有些事情必须改变,因为在第二个总和中,一个时间步实际上是从到,所以新的期望必须包括它。它在某种意义上被扩展了,只是没有完全分解成每个后续政策决定和状态转换的完整产物。
您可以尝试使用某些容器(如- 展示如何计算所有可能性的完整树的期望值 - 数学仍然有效。但这将是显示相同关系的一种非常简单的方式。