动作涉及离散和连续参数的学习策略

人工智能 深度学习 强化学习 政策梯度 演员批评方法
2021-10-21 10:49:55

通常,强化学习似乎涉及对离散或连续动作空间的学习。一个例子可能是从 Gym Retro 中的一组预定义游戏动作中进行选择,或者学习正确的引擎力量以应用于 Continuous Mountain Car;针对这些问题的一些流行方法是针对前者的深度 Q 学习和针对后者的 actor-critic 方法。

在单个动作涉及选择离散参数和连续参数的情况下怎么办?例如,当从给定集合中选择形状的类型(离散)、像素网格位置(离散)和角度方向(连续)以放置在网格上并针对某些奖励进行优化时。是否有一种成熟的方法来学习一项政策以同时做出两种类型的决策?

1个回答

DeepMind最近发表了一篇论文:Continuous-Discrete Reinforcement Learning for Hybrid Control in Robotics,旨在解决这个问题,如摘要中所述:

许多现实世界的控制问题既涉及离散决策变量——例如控制模式的选择、齿轮切换或数字输出——也涉及连续决策变量——例如速度设定点、控制增益或模拟输出。然而,在定义相应的最优控制或强化学习问题时,通常用完全连续或完全离散的动作空间来近似。这些简化旨在将问题定制为可能仅支持一种类型的动作空间的特定算法或求解器。或者,专家启发式用于从其他连续空间中删除离散动作。相比之下,我们建议通过混合强化学习解决混合问题,以它们的“本机”形式处理它们,它 同时优化离散和连续动作

这个想法是他们使用混合策略,对连续决策变量使用高斯分布,对离散决策变量使用分类分布。然后,他们扩展了最大后验策略优化 (MPO)算法(也是由 DeepMind 开发的),以允许它处理混合策略。

是一个视频,展示了他们如何在机器人任务中使用生成的混合 MPO策略,除了连续动作之外,机器人还可以选择离散动作,这是要使用的控制模式(粗略与精细)。