在 RL 中评估价值函数

数据挖掘 强化学习 马尔科夫过程 蒙特卡洛
2022-03-10 00:09:19

我正在阅读 Richar S. Sutton 和 Andrew G. Barto 所著的《强化学习》一书,但我被困在以下问题上。

状态的价值取决于在该状态下可能采取的行动的价值以及在当前政策下采取每项行动的可能性。我们可以将其视为植根于状态并考虑每个可能操作的小型备份图:

在此处输入图像描述

给出对应于这个直觉的方程和根节点的值的图表, 公式2 根据预期叶节点的值 公式 ,给出 公式3 这种预期取决于政策, 公式4 然后给出第二个方程,其中期望值被明确写出, 公式5 使得方程中没有出现期望值符号。

我应该提到...

公式7 ...

在哪里...

公式6=从状态s采取行动a 的概率

公式8 = 给定任何状态sa,每个下一个状态s'的概率

公式9= 给定任何状态s、下一个状态s和动作a的 预期回报

我怎样才能按照要求的方式重新评估这个价值函数?

1个回答

在离散概率空间中,随机变量(RV) 的期望值是所有可能值的总和乘以它们各自的概率。在这里,您的房车是qπ(s,a), 和s被修复。因此,您只需要对操作采取期望:

vπ(s)=1. taskEaπ(s,a)[qπ(s,a)]=2. taskaπ(s,a)qπ(s,a).

π(s,a)代表“个体概率”。