贝尔曼方程中的期望值

数据挖掘 强化学习
2022-02-24 20:31:50

我正在阅读 Sutton 和 Barto 的“强化学习 - 简介”。

在页。59、状态值函数有贝尔曼方程

vπ(s)=Eπ[Gt|St=s]=Eπ[Rt+1+γGt+1|St=s]=aπ(a|s)srp(s,r|s,a)[r+γEπ[Gt+1|St+1=s]]

我不明白为什么期望值在最后一个表达式中幸存下来。期望值的定义是E[X]=xp(x), 不是E[X]=E[x]p(x)

我不知道我的问题是否清楚。在定义的最后一个方程中vπ(s), 我不会把期望值放在里面

1个回答

使用预期值,您有相当大的自由来扩展/解决或不解决。

例如,假设分布XY独立解决(即值不相关):

E[X+Y]=(xxp(x))+E[Y]

E[XY]=xxp(x)E[Y]

MDP 的每个时间步都以这种方式独立,因此您可以在处理贝尔曼方程中预期的和和乘积时使用它(假设您按时间步分开项)。

对于贝尔曼方程,目标是关联vπ(st)vπ(st+1),并且值的定义是作为期望给出的,因此保留第二个期望而不是扩展它是有意义的。

不过有些事情必须改变,因为在第二个总和中,一个时间步实际上是从ss,所以新的期望必须包括它。它在某种意义上被扩展了,只是没有完全分解成每个后续政策决定和状态转换的完整产物。

您可以尝试使用某些容器(如Πn=t+1T- 展示如何计算所有可能性的完整树的期望值 - 数学仍然有效。但这将是显示相同关系的一种非常简单的方式。