数据挖掘 - 深度 Q 学习中的收敛是否等于学习？ - 吾爱随笔录

在我目前的研究项目中，我使用的是深度 Q 学习算法。设置如下：我在一个静态数据集上训练模型（使用深度 Q 学习），该数据集由从给定游戏的 N 个级别中提取的经验组成。然后，我想用训练好的模型解决同一游戏的M个新关卡，即我想测试agent对同一游戏的新关卡的泛化能力。

目前，我已经设法找到了一个能够收敛的复杂（深度）CNN 架构。这意味着在对其进行大量迭代训练后（顺便说一下，我使用的是优先经验回放），训练误差（Q 值和 Q 目标之间的平方差）非常低。

因为我希望代理能够泛化到新的、看不见的级别，所以我考虑找到能够收敛于训练级别的最简单的 CNN 架构，因为该模型可以更好地泛化（不太容易在训练中过度拟合水平）。

在监督学习中，我的推理是正确的。但是，我不知道它是否适用于强化学习。给定一个能够收敛的模型（最小化 Q 目标和 Q 值之间的误差），该模型是否总是在学习以最优方式求解水平，即模型是否找到最大化奖励的最优策略？换句话说，深度 Q 学习代理是否有可能找到一个非最优策略，该策略收敛到 Q 目标和 Q 值之间的非常小的误差？

根据我的阅读，我认为只要深度 Q 学习收敛，找到的策略总是最优的。如果我错了，请纠正我。