基于模型的 RL 尝试学习函数表示环境转换,也称为系统模型。我看到线性函数仍在基于模型的 RL 中使用,例如在机器人操作中学习系统动力学,并且可以很好地工作。(这里,我的意思是学习模型,而不是作为控制器选择最佳动作的优化方法)。
在基于模型的 RL 中,是否存在学习线性模型(例如使用Lyapunov 函数)比使用神经网络更适合的情况,或者是在使用基于模型的 RL 解决问题时使用线性模型构建的问题示例?
基于模型的 RL 尝试学习函数表示环境转换,也称为系统模型。我看到线性函数仍在基于模型的 RL 中使用,例如在机器人操作中学习系统动力学,并且可以很好地工作。(这里,我的意思是学习模型,而不是作为控制器选择最佳动作的优化方法)。
在基于模型的 RL 中,是否存在学习线性模型(例如使用Lyapunov 函数)比使用神经网络更适合的情况,或者是在使用基于模型的 RL 解决问题时使用线性模型构建的问题示例?
这只是监督学习的一个例子。你试图预测给定和,所以你的问题的答案取决于你的状态动态有多复杂。
例如,如果状态空间非常复杂,例如,如果您的状态空间是一张图像,并且您想在给定当前图像和动作的情况下预测下一张图像,那么线性方法不太可能很好地工作。