人工智能 - 我们是否应该向价值网络提供更多的终端状态，以便首先学习它们的价值？ - 吾爱随笔录

人工智能强化学习 q学习马尔可夫决策过程动态规划

2021-10-21 03:39:50

Q 学习的基础是递归的（类似于动态规划），其中只有终止状态的绝对值是已知的。

最初为模型提供更大比例的终端状态是否应该有意义，以确保首先学习终端状态（零）中一步的预测值？

这会使网络更有可能收敛到全局最优吗？

2个回答

Q 学习的基础是递归的（类似于动态规划），其中只有终止状态的绝对值是已知的。

这在某些环境中可能是正确的。许多环境没有终止状态，它们是连续的。例如，在目标是获胜的棋盘游戏环境中，您的陈述可能是正确的，但在 Atari 游戏环境中则可能是错误的。

另外，在计算终端状态的值时，它总是为零，所以经常有一个特殊的硬编码 $0$ 使用，神经网络不需要学习。所以它只适用于确定性转换 $(S,A) \rightarrow (R, S^T)$ 你需要在哪里学习 $Q(S,A) = R$ 绝对地。

最初为模型提供更大比例的终端状态是否应该有意义，以确保首先学习终端状态（零）中一步的预测值？

在您拥有并知道终端状态的情况下，是的，这可能会有所帮助。在最终状态也是“目标”状态的情况下，它会有所帮助，即使在偶发问题中也不一定如此。例如，在一个情节在固定时间后结束的寻宝迷宫中，了解最终状态的值和接近它的转换对于优化控制而言不如为路径的早期部分建立预期回报重要。

关注“目标”状态并不能推广到所有环境，并且一旦网络将 Q 值逼近接近终端和/或目标状态，它的帮助就很小。对于分发稀疏奖励（包括剧集终止）的知识，有比您建议的更通用的方法：

优先扫荡。这概括了您在经验表明可以获取知识的情况下选择性采样的想法（通过跟踪当前错误值和转换）。
n 步时间差。使用更长的轨迹来计算 TD 目标会增加方差，但会减少偏差并允许跨多个步骤快速分配奖励。这在 TD( $\lambda$ ) 以允许多个长度轨迹的参数混合，并且可以使用资格迹线在线完成。结合 Q( $\lambda$ ) 使用深度神经网络是可能的 -例如，请参阅本文。

如果你有足够的领域知识能够可靠地、有意识地在产生经验时经常达到这些终端状态，是的，这可能会有所帮助。

通常，强化学习中的假设不是领域知识，而是假设我们处于马尔可夫决策过程中。这意味着我们从头开始学习，在广泛学习之前我们不知道如何达到最终状态。如果我们不知道如何到达终端状态，我们也不能像你建议的那样故意去那里产生我们想要的体验。

其它你可能感兴趣的问题