Google 的 DeepMind 是根据什么原理学会走路的?

数据挖掘 机器学习 深度学习 q学习 遗传算法 深思熟虑
2022-02-23 02:51:38

我刚刚在 Youtube 上看到了这个视频。

Google 的 DeepMind 是根据什么原理学会走路的?

是 Q-Learning 还是遗传算法或策略梯度?

1个回答

DeepMind 团队在论文Emergence of Locomotion Behaviors in Rich Environments中解释了完整的方法。

引用那篇论文:

使用策略梯度强化学习的一种新颖的可扩展变体,我们的代理可以根据环境的需要学习奔跑、跳跃、蹲伏和转弯。. .

因此,为了回答您的问题,研究人员使用了策略梯度方法。