我们如何计算平均奖励(r ( π)r(π)) 如果政策随着时间而改变?

人工智能 强化学习 深度学习
2021-11-08 10:30:18

在平均奖励设置中,策略的质量定义为:

r(π)=limh1hj=1hE[Rj]
当我们达到稳态分布时,我们可以将上述方程写成如下:
r(π)=limtE[Rt|Aπ]
我们可以使用增量更新的方法来查找r(π)
r(π)=1tj=1tRj=R¯t1+β(RtR¯t1)
在哪里R¯t1是平均奖励的估计r(π)在时间步长t1. 我们在 SARSA 算法中使用这个增量更新规则: 在此处输入图像描述

现在,在上述算法中,我们可以看到策略会随时间而变化。但是要计算r(π), 代理应遵循政策π很长一段时间。那么我们是如何使用的r(π)如果政策随时间变化?

1个回答

你是对的:要评估政策,我们需要修复它。

  • 我们可以暂时修复它,只是为了通过一些测试用例来评估它。为了公平比较,我们应该修复用于转换的起始状态和随机种子。
  • 我们可以等到收敛/直到我们满意。由此产生的策略将是我们在“真正的”、训练有素的代理中实施的策略。当探索可能在代理将运行的“现实世界”域中有害时,这一点很重要。
  • 我们还可以测量“非平稳”策略的平均奖励,并假设一旦代理表现良好,这应该足够接近评估固定策略。这并不理想,但另一方面它实现起来很简单,并且经常用于跟踪学习过程。如果你有一个终身学习代理,这可能是你能做的最好的。