诸如捉迷藏之类的强化学习示例是否学会了解决除了它们开始的环境之外的任何问题?

数据挖掘 强化学习
2022-03-11 22:57:20

如图所示。

https://www.youtube.com/watch?v=kopoLzvh5jY

OpenAI 使用多个看似对抗性的学习代理实施强化学习研究。他们说“数百万轮”让这些玩家学习行为。问题是,他们真的在学习吗?如果一旦他们使用的算法完成并且环境发生变化,算法学习的编码数据和决策是否会应用并复制在具有相同总体规则的任何其他虚拟环境中“学习”的内容?

1个回答

您可以使用此处提供的代码,尤其是现在Mujoco模拟器是免费的,您可以自己尝试一下!据我所见,代理学习了论文中描述的其中一些行为,但很多时候他们的行为很混乱。我不认为代理商表现良好或解决问题。该研究主要关注一些有趣行为的出现,而不是基于某些分数的表现。

代理在随机版本的捉迷藏环境中接受训练,因此它们能够在同一环境中进行泛化。他们不使用像素作为输入,而是使用坐标、位置、速度等。这意味着,如果您使用mujoco-world 生成器设计自己的环境,并且除了环境配置之外几乎所有内容都相同,您可能会测试模型的效果如何概括。