数据挖掘 - Google 的 Deep Mind 使用哪种策略梯度方法来教 AI 走路 - 吾爱随笔录

Google 的 Deep Mind 使用哪种策略梯度方法来教 AI 走路

数据挖掘机器学习深度学习强化学习政策梯度深思熟虑

2022-02-15 12:54:18

我刚刚在 Youtube 上看到了这个视频。

使用哪种策略梯度方法来训练 AI 行走？

是 DDPG 还是 D4PG 还是什么？

1个回答

他们使用了分布式近端策略优化 (DPPO)。在与视频相关的文章中，他们提供了简要概述：

为了在这些丰富且具有挑战性的领域中有效地学习，有必要拥有一个可靠且可扩展的强化学习算法。我们利用最近几种深度强化学习方法中的组件。首先，我们建立在稳健的策略梯度算法之上，例如信任区域策略优化 (TRPO) 和近端策略优化 (PPO) [7, 8]，它们将参数更新绑定到信任区域以确保稳定性。其次，与广泛使用的 A3C 算法 [2] 和相关方法 [3] 一样，我们将计算分布在代理和环境的许多并行实例上。我们的 PPO 分布式实现在挂钟时间方面比 TRPO 有所改进，而鲁棒性几乎没有差异，

以下是一些资源：

其它你可能感兴趣的问题

上一篇多头注意力是否消除了对自我注意力的需要？下一篇NLP：找到连接句子各部分的最佳介词