数据挖掘 - RL - 权衡负面奖励 - 吾爱随笔录

RL - 权衡负面奖励

数据挖掘强化学习 dqn

2022-02-21 21:41:37

让我们考虑一下，每次代理执行导致剧集过早结束的动作（即代理死亡）时，我给它的奖励为 -1（最小奖励）。此外，当智能体执行我想避免重复太多的动作时，我还在 [-1, 0) 区间内给予负奖励。但是，这些动作不会终止情节。

鉴于有可能收集到许多最终总和小于 -1 的负奖励，代理是否有可能学会采取“-1”行动？也就是说，智能体宁愿自杀也不愿经历许多负面奖励。

PD：代理也在 (0, 1] 区间内收到正奖励，其幅度往往高于负奖励，但代理在探索时收到的频率较低。

1个回答

是的，有可能。在我的例子中，使用特定的奖励函数，我的代理（蛇）宁愿自杀而不是试图达到目标，因为“活罚”（代理每一步都会受到惩罚，以加快开发阶段的速度）勘探）。查看此博客文章，他们详细介绍了所有这些内容，它们是迄今为止我发现的最好的： https ://mpatacchiola.github.io/blog/2017/01/29/dissecting-reinforcement-learning- 3.html

此外，由于作者具有认知神经科学背景，因此每个算法都从神经科学的角度进行了解释。

其它你可能感兴趣的问题

上一篇为什么平均一个句子的词向量价值？下一篇评估生成对抗网络的性能？