数据挖掘 - 在计算策略梯度时，根据策略梯度公式，更长的轨迹不会有更大的权重吗？ - 吾爱随笔录

数据挖掘强化学习政策梯度

2022-02-16 23:31:05

在Sergey Levine关于策略梯度的讲座（berkeley deep rl course）中，他表明可以根据公式评估策略梯度

在这个公式中，更长的轨迹不会得到更多的权重（在有限的视野情况下），因为中间项，log pi 的总和，会涉及更多的项？（为什么会这样？）

我想到的具体例子是 pacman，更长的轨迹对梯度的贡献更大。它应该那样工作吗？

1个回答

不是更长的轨迹会增加重量吗？

不必要。坡度 $\triangledown_{\theta}$ 可能是负数或正数（一维类比），因此，更大数量的梯度可能具有更小的权重，这是有道理的。与具有符号交替策略梯度的不一致的长轨迹相比，一致的短轨迹信息量更大（权重更大）。

为什么会这样？

如果我们比较两条一致的轨迹，其中大多数梯度都在相同的方向，这个公式再次有意义。长的一致轨迹比短的轨迹包含更多有用的信息（更多相互确认的步骤）。在现实生活中，将成功一周的信息量与成功学习政策的一年进行比较。

其它你可能感兴趣的问题