深度 Q 学习中的收敛是否等于学习?

数据挖掘 深度学习 强化学习 q学习 收敛 概括
2022-03-07 13:07:56

在我目前的研究项目中,我使用的是深度 Q 学习算法。设置如下:我在一个静态数据集上训练模型(使用深度 Q 学习),该数据集由从给定游戏的 N 个级别中提取的经验组成。然后,我想用训练好的模型解决同一游戏的M个关卡,即我想测试agent对同一游戏的新关卡的泛化能力。

目前,我已经设法找到了一个能够收敛的复杂(深度)CNN 架构。这意味着在对其进行大量迭代训练后(顺便说一下,我使用的是优先经验回放),训练误差(Q 值和 Q 目标之间的平方差)非常低。

因为我希望代理能够泛化到新的、看不见的级别,所以我考虑找到能够收敛于训练级别的最简单的 CNN 架构,因为该模型可以更好地泛化(不太容易在训练中过度拟合水平)。

在监督学习中,我的推理是正确的。但是,我不知道它是否适用于强化学习。给定一个能够收敛的模型(最小化 Q 目标和 Q 值之间的误差),该模型是否总是在学习以最优方式求解水平,即模型是否找到最大化奖励的最优策略?换句话说,深度 Q 学习代理是否有可能找到一个非最优策略,该策略收敛到 Q 目标和 Q 值之间的非常小的误差?

根据我的阅读,我认为只要深度 Q 学习收敛,找到的策略总是最优的。如果我错了,请纠正我。

1个回答

深度 Q 学习发现的策略,即使在收敛之后,也不能保证是最优的。原因是 DQN 中逼近 Q 函数的神经网络固有地带有统计误差(偏差和方差),可以在这里找到指针。

此外,只有当每个动作在每个状态下都被无限频繁地采样时,才能保证收敛到表格 Q 学习的最优策略。这可能会使在实验中使用任何“收敛和最优策略”变得非常困难,即使忽略 DQN 中函数逼近的额外复杂性也是如此。

另外请注意,监督学习中的泛化要求训练和测试数据是从相同的分布中采样的。同样对于 RL,假设训练和测试环境是从相同的“分布”中采样的。对训练集中未反映的环境的泛化在 RL 文献中称为迁移学习。

这是一个重要且非常有趣的研究方向,因此请不要被此评论气馁。