数据挖掘 - 2018 年的强化学习，最佳技巧和窍门？ - 吾爱随笔录

抛开适用于神经网络的东西，例如 dropout、l2 正则化、新的优化器——我应该在2018年将哪些很酷的东西添加到我的强化学习算法（Q-Learning 和 SARSA）中以使其更强大？

到目前为止，我知道这些：

经验回放（收集经验，然后立即对其中一些进行训练）
慢慢地使我们的网络接近目标网络的 Q 值。目标网络有时只会被克隆。
如果我们的函数逼近器是 RNN 并且我们的 Memory Bank 存储了几个时间步长的序列，在从 Memory bank 中选择几个随机序列后，只反向传播一半的序列，而不回到它的开始