在我目前的研究项目中,我使用的是深度 Q 学习算法。设置如下:我在一个静态数据集上训练模型(使用深度 Q 学习),该数据集由从给定游戏的 N 个级别中提取的经验组成。然后,我想用训练好的模型解决同一游戏的M个新关卡,即我想测试agent对同一游戏的新关卡的泛化能力。
目前,我已经设法找到了一个能够收敛的复杂(深度)CNN 架构。这意味着在对其进行大量迭代训练后(顺便说一下,我使用的是优先经验回放),训练误差(Q 值和 Q 目标之间的平方差)非常低。
因为我希望代理能够泛化到新的、看不见的级别,所以我考虑找到能够收敛于训练级别的最简单的 CNN 架构,因为该模型可以更好地泛化(不太容易在训练中过度拟合水平)。
在监督学习中,我的推理是正确的。但是,我不知道它是否适用于强化学习。给定一个能够收敛的模型(最小化 Q 目标和 Q 值之间的误差),该模型是否总是在学习以最优方式求解水平,即模型是否找到最大化奖励的最优策略?换句话说,深度 Q 学习代理是否有可能找到一个非最优策略,该策略收敛到 Q 目标和 Q 值之间的非常小的误差?
根据我的阅读,我认为只要深度 Q 学习收敛,找到的策略总是最优的。如果我错了,请纠正我。