抛开适用于神经网络的东西,例如 dropout、l2 正则化、新的优化器——我应该在2018年将哪些很酷的东西添加到我的强化学习算法(Q-Learning 和 SARSA)中以使其更强大?
到目前为止,我知道这些:
- 经验回放(收集经验,然后立即对其中一些进行训练)
- 慢慢地使我们的网络接近目标网络的 Q 值。目标网络有时只会被克隆。
- 如果我们的函数逼近器是 RNN 并且我们的 Memory Bank 存储了几个时间步长的序列,在从 Memory bank 中选择几个随机序列后,只反向传播一半的序列,而不回到它的开始