我在网上找到了一些 DQN 算法(在具有连续状态空间和少量动作的问题中,比如说 2 或 3 个),在每个时间步,计算并存储(在用于更新的内存中)所有可能的动作(所以所有可能的奖励)。例如,在论文Deep Q-trading的第 5 页上,他们说
这意味着我们不需要像在许多强化学习任务中那样随机探索来对动作进行采样;相反,我们可以模拟所有三个动作来更新 Q 网络。
这如何与探索-利用困境相适应,即你必须平衡探索的时间步长和利用的时间步长?
我在网上找到了一些 DQN 算法(在具有连续状态空间和少量动作的问题中,比如说 2 或 3 个),在每个时间步,计算并存储(在用于更新的内存中)所有可能的动作(所以所有可能的奖励)。例如,在论文Deep Q-trading的第 5 页上,他们说
这意味着我们不需要像在许多强化学习任务中那样随机探索来对动作进行采样;相反,我们可以模拟所有三个动作来更新 Q 网络。
这如何与探索-利用困境相适应,即你必须平衡探索的时间步长和利用的时间步长?
您链接的示例正在使用模型(仿真)来提前查看来自任何状态的所有可能操作。它本质上是使用该模型探索脱机和脱机。这不是在所有环境中都可用的选项,但如果可能,它通过调查所有选项很好地解决了单个时间步的探索/开发困境。
在我看来,链接提出的长期代理并没有充分探索一般用途。它似乎总是基于最大化动作价值确定性地选择单个动作。换句话说,到目前为止,它总是试图利用训练数据,即使它用关于探索的短期知识来扩充训练数据。但是,这在使用它的问题域中似乎就足够了。我怀疑这是出于几个原因:
环境是非平稳的,这使得长期状态预测在任何情况下都不可靠。学习在短期内(即未来仅几个时间步长)利用的智能体可能已经接近最优。
状态转换可能是高度随机的,这意味着即使使用确定性策略,状态空间仍将被充分探索。环境的这一特征也被其他具有确定性行为策略的知名 Q 学习方法使用,例如TD Gammon
我认为您已经正确地确定了链接论文中使用的方法的一个弱点,这意味着它可能不会成为一个强大的通用算法。该算法避免完全解决探索/利用平衡问题,而是依赖环境的特征来很好地工作。如果您发现自己在类似的环境中为自己的项目工作,那么可能值得尝试相同的方法。然而,如果你发现自己在一个更加确定的环境中工作,具有更多的固定行为和稀疏的奖励,那么缺乏状态空间探索将是一个严重的限制。