如何处理 DQN 中不断变化的目标?

人工智能 强化学习 dqn
2021-10-31 10:44:00

我创建了一个虚拟 2D 环境,其中代理旨在找到与目标图像相对应的正确姿势。我实现了一个 DQN 来解决这个任务。当目标固定时,例如目标是找到位置 (1,1) 的姿势,代理成功。我现在想训练一个代理找到正确的姿势,而目标姿势在每一集后都会发生变化。我的研究让我想到了“多目标深度强化学习”这个术语。据我了解,这里的目的是训练一个或多个代理以实现适合所有目标的策略近似。我是否走在正确的轨道上,或者我应该如何处理不同的目标状态?

1个回答

您可以做的最简单的事情是将有关目标姿势的数据添加到状态向量中。这将允许直接使用代理学习到的适用于相似姿势的任何概括。

显然,在正常使用中,目标姿势在情节期间保持固定,那么状态信息的那部分在情节期间也不会改变。你还需要训练各种各样的目标姿势——所以训练需要更长的时间。

多目标深度强化学习略有不同,它试图解决多个子目标之间的优先级。这也是一个更复杂的解决方案,同时增加状态向量应该允许您继续使用与您已经设置的非常相似的 DQN。