Google 的 DeepMind 是根据什么原理学会走路的?
数据挖掘
机器学习
深度学习
q学习
遗传算法
深思熟虑
2022-02-23 02:51:38
1个回答
DeepMind 团队在论文Emergence of Locomotion Behaviors in Rich Environments中解释了完整的方法。
引用那篇论文:
使用策略梯度强化学习的一种新颖的可扩展变体,我们的代理可以根据环境的需要学习奔跑、跳跃、蹲伏和转弯。. .
因此,为了回答您的问题,研究人员使用了策略梯度方法。
其它你可能感兴趣的问题