2018 年的强化学习,最佳技巧和窍门?

数据挖掘 强化学习
2022-02-14 02:44:07

抛开适用于神经网络的东西,例如 dropout、l2 正则化、新的优化器——我应该在2018年将哪些很酷的东西添加到我的强化学习算法(Q-Learning 和 SARSA)中以使其更强大?

到目前为止,我知道这些:

  1. 经验回放(收集经验,然后立即对其中一些进行训练)
  2. 慢慢地使我们的网络接近目标网络的 Q 值。目标网络有时只会被克隆。
  3. 如果我们的函数逼近器是 RNN 并且我们的 Memory Bank 存储了几个时间步长的序列,在从 Memory bank 中选择几个随机序列后,只反向传播一半的序列,而不回到它的开始
1个回答

你看过彩虹 RL吗?它结合了 RL 的所有改进。除了结构变化之外,其他改进来自奖励塑造、好奇心驱动学习、带有无监督辅助任务的强化学习和带有外部记忆的强化学习(例如神经情节控制、无模型情节控制)。遗憾的是,您在问题中遗漏了 Policy Gradients,它们很有趣 :) 阅读愉快!