Q 学习的基础是递归的(类似于动态规划),其中只有终止状态的绝对值是已知的。
最初为模型提供更大比例的终端状态是否应该有意义,以确保首先学习终端状态(零)中一步的预测值?
这会使网络更有可能收敛到全局最优吗?
Q 学习的基础是递归的(类似于动态规划),其中只有终止状态的绝对值是已知的。
最初为模型提供更大比例的终端状态是否应该有意义,以确保首先学习终端状态(零)中一步的预测值?
这会使网络更有可能收敛到全局最优吗?
Q 学习的基础是递归的(类似于动态规划),其中只有终止状态的绝对值是已知的。
这在某些环境中可能是正确的。许多环境没有终止状态,它们是连续的。例如,在目标是获胜的棋盘游戏环境中,您的陈述可能是正确的,但在 Atari 游戏环境中则可能是错误的。
另外,在计算终端状态的值时,它总是为零,所以经常有一个特殊的硬编码使用,神经网络不需要学习。所以它只适用于确定性转换你需要在哪里学习绝对地。
最初为模型提供更大比例的终端状态是否应该有意义,以确保首先学习终端状态(零)中一步的预测值?
在您拥有并知道终端状态的情况下,是的,这可能会有所帮助。在最终状态也是“目标”状态的情况下,它会有所帮助,即使在偶发问题中也不一定如此。例如,在一个情节在固定时间后结束的寻宝迷宫中,了解最终状态的值和接近它的转换对于优化控制而言不如为路径的早期部分建立预期回报重要。
关注“目标”状态并不能推广到所有环境,并且一旦网络将 Q 值逼近接近终端和/或目标状态,它的帮助就很小。对于分发稀疏奖励(包括剧集终止)的知识,有比您建议的更通用的方法:
如果你有足够的领域知识能够可靠地、有意识地在产生经验时经常达到这些终端状态,是的,这可能会有所帮助。
通常,强化学习中的假设不是领域知识,而是假设我们处于马尔可夫决策过程中。这意味着我们从头开始学习,在广泛学习之前我们不知道如何达到最终状态。如果我们不知道如何到达终端状态,我们也不能像你建议的那样故意去那里产生我们想要的体验。