我们如何计算平均奖励(r ( π)r(π)) 如果政策随着时间而改变?
人工智能
强化学习
深度学习
2021-11-08 10:30:18
1个回答
你是对的:要评估政策,我们需要修复它。
- 我们可以暂时修复它,只是为了通过一些测试用例来评估它。为了公平比较,我们应该修复用于转换的起始状态和随机种子。
- 我们可以等到收敛/直到我们满意。由此产生的策略将是我们在“真正的”、训练有素的代理中实施的策略。当探索可能在代理将运行的“现实世界”域中有害时,这一点很重要。
- 我们还可以测量“非平稳”策略的平均奖励,并假设一旦代理表现良好,这应该足够接近评估固定策略。这并不理想,但另一方面它实现起来很简单,并且经常用于跟踪学习过程。如果你有一个终身学习代理,这可能是你能做的最好的。
其它你可能感兴趣的问题
