让我们考虑一下,每次代理执行导致剧集过早结束的动作(即代理死亡)时,我给它的奖励为 -1(最小奖励)。此外,当智能体执行我想避免重复太多的动作时,我还在 [-1, 0) 区间内给予负奖励。但是,这些动作不会终止情节。
鉴于有可能收集到许多最终总和小于 -1 的负奖励,代理是否有可能学会采取“-1”行动?也就是说,智能体宁愿自杀也不愿经历许多负面奖励。
PD:代理也在 (0, 1] 区间内收到正奖励,其幅度往往高于负奖励,但代理在探索时收到的频率较低。
让我们考虑一下,每次代理执行导致剧集过早结束的动作(即代理死亡)时,我给它的奖励为 -1(最小奖励)。此外,当智能体执行我想避免重复太多的动作时,我还在 [-1, 0) 区间内给予负奖励。但是,这些动作不会终止情节。
鉴于有可能收集到许多最终总和小于 -1 的负奖励,代理是否有可能学会采取“-1”行动?也就是说,智能体宁愿自杀也不愿经历许多负面奖励。
PD:代理也在 (0, 1] 区间内收到正奖励,其幅度往往高于负奖励,但代理在探索时收到的频率较低。
是的,有可能。在我的例子中,使用特定的奖励函数,我的代理(蛇)宁愿自杀而不是试图达到目标,因为“活罚”(代理每一步都会受到惩罚,以加快开发阶段的速度)勘探)。查看此博客文章,他们详细介绍了所有这些内容,它们是迄今为止我发现的最好的: https ://mpatacchiola.github.io/blog/2017/01/29/dissecting-reinforcement-learning- 3.html
此外,由于作者具有认知神经科学背景,因此每个算法都从神经科学的角度进行了解释。