Google 的 Deep Mind 使用哪种策略梯度方法来教 AI 走路
数据挖掘
机器学习
深度学习
强化学习
政策梯度
深思熟虑
2022-02-15 12:54:18
1个回答
他们使用了分布式近端策略优化 (DPPO)。在与视频相关的文章中,他们提供了简要概述:
为了在这些丰富且具有挑战性的领域中有效地学习,有必要拥有一个可靠且可扩展的强化学习算法。我们利用最近几种深度强化学习方法中的组件。首先,我们建立在稳健的策略梯度算法之上,例如信任区域策略优化 (TRPO) 和近端策略优化 (PPO) [7, 8],它们将参数更新绑定到信任区域以确保稳定性。其次,与广泛使用的 A3C 算法 [2] 和相关方法 [3] 一样,我们将计算分布在代理和环境的许多并行实例上。我们的 PPO 分布式实现在挂钟时间方面比 TRPO 有所改进,而鲁棒性几乎没有差异,
以下是一些资源:
其它你可能感兴趣的问题