“RL 入门”中的方程式:E 和带下标的 E 之间的含义和区别是什么?

数据挖掘 强化学习 马尔科夫过程
2022-02-15 22:00:33

这个问题来自An Introduction to RL,第 78 页。在页面下方的公式中,两者

EEπ

被提及。你能帮我理解这两个在这个页面和一般情况下的区别吗?

2个回答

通常,期望是针对某个随机变量 X 进行的。通常,在处理单个随机变量时,可以隐式推断它正在集成哪个随机变量,因此写作E就够了。但是,在处理多个随机变量时,情况不再如此。然后,下标表示期望取哪个随机变量。

但是,下标也可以表示以哪个随机变量为条件在我看来,您所指的页面就是这种情况。这里,Eπ意味着您正在以根据分配的动作为条件π.

(顺便说一句:有时您可能会看到以下内容:Eaπ, 这里的下标"a根据分布 π")

如需更多技术性答案,请查看Cross Validated 上的这个问题。

从页面开始的符号部分xix, 下标π似乎被阅读:

...根据政策π

所以E是期望,而

Eπ政策下的期望π.

我们可以计算从 1 到 10 中选择的一组随机数的期望值。如果选择该范围内的每个数字的概率都相等,我们可以简单地取加权平均值。这将等于 5.5。

但是,如果我们基于一些不相等的权重进行选择,那么非随机动作(就像政策会给我们一样),我们就会有不相等的权重。现在答案将不再是简单的平均值,而是一个偏向于更重权重的值,即更可能的选择。


在那些特定的方程式中,如果我没记错的话,作者只是将下标放在那里Eπ明确表示我们正在根据该政策开展工作π. 下标仅出现在第三行,因为该策略已从期望的条件部分(竖线之后的部分)中删除。所以我们删除了相关的政策条款:At=π(s),并通过下标表明我们正在使用该策略。