我正在 Q*bert Atari 环境中使用 Deep Q-learning + Experience Replay 训练 RL 代理。在 400,000 帧之后,我的代理似乎已经了解了有关游戏的战略信息,但没有了解环境。据了解,一个好的即时策略是简单地跳下对角线和板的下降,从而完成第一级的大部分。但是,仍然要了解板的边界以防止跳下,也不了解如何避免敌人。我在这里问这个,而不是 Stack Overflow,因为这是一个更普遍的问题,在编程理解方面的需求较少。简单地说,我在问这是否与孔隙勘探政策有关(我假设)。如果你同意,
根据评论请求:
您能否添加您当前的探索方法是什么,以及您在深度 Q 学习实施中使用了哪些选项(例如重放大小、批量大小、NN 架构、每个目标网络副本的步数,或者您是否使用不同的更新机制来实现目标网络)。此外,如果您使用与经典 DQN 论文不同的任何其他方法,例如状态表示。
这是我的参数:
- 探索策略:epsilon =
min(1.0, 1000 / (frames + 1)) - 回放内存 = 20,000 帧
- 批量大小 = 32 个转换
- NN架构:Conv2D(64, 3, 2), Dropout(0.2), Dense(32, relu), Dense(32, relu), Dense(num_actions, linear)
- 每个目标网络副本的步数:100