Google 的 Deep Mind 使用哪种策略梯度方法来教 AI 走路

数据挖掘 机器学习 深度学习 强化学习 政策梯度 深思熟虑
2022-02-15 12:54:18

我刚刚在 Youtube 上看到了这个视频。

使用哪种策略梯度方法来训练 AI 行走?

是 DDPG 还是 D4PG 还是什么?

1个回答

他们使用了分布式近端策略优化 (DPPO)。在与视频相关的文章中,他们提供了简要概述:

为了在这些丰富且具有挑战性的领域中有效地学习,有必要拥有一个可靠且可扩展的强化学习算法。我们利用最近几种深度强化学习方法中的组件。首先,我们建立在稳健的策略梯度算法之上,例如信任区域策略优化 (TRPO) 和近端策略优化 (PPO) [7, 8],它们将参数更新绑定到信任区域以确保稳定性。其次,与广泛使用的 A3C 算法 [2] 和相关方法 [3] 一样,我们将计算分布在代理和环境的许多并行实例上。我们的 PPO 分布式实现在挂钟时间方面比 TRPO 有所改进,而鲁棒性几乎没有差异,

以下是一些资源: