难以理解强化学习中使用的偏微分

数据挖掘 神经网络 强化学习
2022-02-15 02:17:02

我正在研究强化学习中的确定性演员批评算法。

在进入数学之前,我尝试对演员评论算法进行简要解释。参与者接受状态并根据分配策略输出确定性动作sau

状态和动作被输入到批评者中。从给定状态采取特定动作有多好Q(s,a,w)

然后通过时间差异(TD)学习更新评论家,并在评论家的方向上更新演员

因此可以看出,参与者的目标是通过选择给定状态下的最佳动作Q(s,a,w)

在此处输入图像描述


我无法理解更新演员背后的数学原理。

下面的等式给出了actor的更新方式。

lu=Q(s,a,w)aau

我的理解是,我们正在对求偏导,并且我们正在将批评梯度反向传播给演员。lu

似乎是变量的可微函数,但在描述上面等式中发生的事情时我感到困惑,因为它似乎由两个函数相乘而成。la

有人能解释一下上面数学中到底发生了什么吗?

1个回答

您对正在发生的事情的理解似乎是正确的,只是一点点澄清:应该是确定性策略的模型参数,而不是分布本身,就像,但这可能就是你的意思(或者我可能不熟悉这个公式)。uμ(s,u)wQ(s,a,w)

暗示的更新步骤应该使确定性策略更接近最优,从而最大化作为,我们手上有一个复合函数luμ(s,u)aQ(s,a,w)a=μ(s,u)

Q(s,a,w)=Q(s,μ(s,u),w)

当更新参与者参数以使相对于的梯度方向上迈出一步,因为它是一个复合函数,所以使用链式法则计算uQQu

Qu=Qaau

符号有点草率,替换等,但在文献中似乎也是如此。所以直觉上发生的事情包括两个部分:μa

  1. 方向移动会增加,例如在一维中如果增加会增加并且如果增加会减少aQaQQa>0aQQa<0aQ

  2. 的方向移动将增加,在一维中,示例与上面相同uaua

如果将这些相乘并更新u根据您最终移动的产品u这样Q通过增加或减少增加a,这正是您想要做的。