问题
我的目标是应用强化学习来预测物体在 3D 环境中在已知力下的下一个状态(该方法将简化为监督学习、离线学习)。
我的方法的细节
当前状态是表示对象在环境中的位置(3 维)和对象的速度(3 维)的向量。起始位置在环境中随机初始化,起始速度也是如此。
动作是表示从状态t到状态t+1的移动的向量。
奖励只是预测的下一个状态和真实的下一个状态(我已经有了目标位置)之间的欧几里得距离。
到目前为止我做了什么?
我一直在寻找很多方法来做到这一点。Deep Deterministic Policy Gradients适用于连续的动作空间,但在我的例子中,我也有一个连续的状态空间。如果你对这种方法感兴趣,这里是 DeepMind 的原始论文:http: //proceedings.mlr.press/v32/silver14.pdf
Actor-Critic方法应该有效,但它通常(或总是)应用于离散和低维状态空间。
Q-Learning和Deep-Q Learning无法处理高维状态空间,因此即使将状态空间离散化,我的配置也不起作用。
当找到奖励函数比找到策略函数更复杂时,逆强化学习(模仿学习的一个实例,具有行为克隆和直接策略学习)近似奖励函数。有趣的方法,但我还没有看到任何实现,在我的例子中,奖励函数非常简单。是否有一种方法可以处理我尚未探索的配置?