通常,强化学习似乎涉及对离散或连续动作空间的学习。一个例子可能是从 Gym Retro 中的一组预定义游戏动作中进行选择,或者学习正确的引擎力量以应用于 Continuous Mountain Car;针对这些问题的一些流行方法是针对前者的深度 Q 学习和针对后者的 actor-critic 方法。
在单个动作涉及选择离散参数和连续参数的情况下怎么办?例如,当从给定集合中选择形状的类型(离散)、像素网格位置(离散)和角度方向(连续)以放置在网格上并针对某些奖励进行优化时。是否有一种成熟的方法来学习一项政策以同时做出两种类型的决策?