数据挖掘 - 贝尔曼方程中的期望值 - 吾爱随笔录

贝尔曼方程中的期望值

数据挖掘强化学习

2022-02-24 20:31:50

我正在阅读 Sutton 和 Barto 的“强化学习 - 简介”。

在页。59、状态值函数有贝尔曼方程

$\begin{array}{ll} v_{\pi}(s) &= \mathbb{E}_{\pi}[G_t|S_t=s] \\&= \mathbb{E}_{\pi}[R_{t+1} + \gamma G_{t+1}|S_t=s] \\&= \sum\limits_{a} \pi(a|s) \sum\limits_{s'} \sum\limits_{r} p(s^{'},r|s,a) \left[ r + \gamma \mathbb{E}_{\pi}[G_{t+1}|S_{t+1}=s'] \right] \end{array}$

我不明白为什么期望值在最后一个表达式中幸存下来。期望值的定义是 $\mathbb{E}[X] = \sum\limits x \cdot p(x)$ ，不是 $\mathbb{E}[X] = \sum\limits \mathbb{E}[x] \cdot p(x)$

我不知道我的问题是否清楚。在定义的最后一个方程中 $v_{\pi}(s)$ , 我不会把期望值放在里面

1个回答

使用预期值，您有相当大的自由来扩展/解决或不解决。

例如，假设分布 $X$ 和 $Y$ 独立解决（即值不相关）：

E [X + Y] = (\sum_{x} x p (x)) + E [Y]

$\mathbb{E}[X + Y] = (\sum_x xp(x))+ \mathbb{E}[Y]$

E [X Y] = \sum_{x} x p (x) E [Y]

$\mathbb{E}[XY] = \sum_x xp(x)\mathbb{E}[Y]$

MDP 的每个时间步都以这种方式独立，因此您可以在处理贝尔曼方程中预期的和和乘积时使用它（假设您按时间步分开项）。

对于贝尔曼方程，目标是关联 $v_\pi(s_t)$ 到 $v_\pi(s_{t+1})$ ，并且值的定义是作为期望给出的，因此保留第二个期望而不是扩展它是有意义的。

不过有些事情必须改变，因为在第二个总和中，一个时间步实际上是从 $s$ 到 $s'$ ，所以新的期望必须包括它。它在某种意义上被扩展了，只是没有完全分解成每个后续政策决定和状态转换的完整产物。

您可以尝试使用某些容器（如 $\Pi_{n=t+1}^{T}$ - 展示如何计算所有可能性的完整树的期望值 - 数学仍然有效。但这将是显示相同关系的一种非常简单的方式。

其它你可能感兴趣的问题

上一篇python中的Arima和Sarima 下一篇具有两个目标（分类、回归）的模型？