数据挖掘 - Google 的 DeepMind 是根据什么原理学会走路的？ - 吾爱随笔录

数据挖掘机器学习深度学习 q学习遗传算法深思熟虑

2022-02-23 02:51:38

我刚刚在 Youtube 上看到了这个视频。

Google 的 DeepMind 是根据什么原理学会走路的？

是 Q-Learning 还是遗传算法或策略梯度？

1个回答

引用那篇论文：

使用策略梯度强化学习的一种新颖的可扩展变体，我们的代理可以根据环境的需要学习奔跑、跳跃、蹲伏和转弯。. .

因此，为了回答您的问题，研究人员使用了策略梯度方法。

其它你可能感兴趣的问题