数据挖掘 - 难以理解强化学习中使用的偏微分 - 吾爱随笔录

数据挖掘神经网络强化学习

2022-02-15 02:17:02

我正在研究强化学习中的确定性演员批评算法。

在进入数学之前，我尝试对演员评论算法进行简要解释。参与者接受状态并根据分配策略输出确定性动作。 $s$ $a$ $u$

状态和动作被输入到批评者中。从给定状态采取特定动作有多好。 $Q(s,a,w)$

然后通过时间差异（TD）学习更新评论家，并在评论家的方向上更新演员

因此可以看出，参与者的目标是通过选择给定状态下的最佳动作 $Q(s,a,w)$

我无法理解更新演员背后的数学原理。

下面的等式给出了actor的更新方式。

\frac{\partial l}{\partial u} = \frac{\partial Q (s, a, w)}{\partial a} \frac{\partial a}{\partial u}

$\begin{equation} \frac{\partial l}{\partial u} = \frac{\partial Q(s, a, w)}{\partial a} \frac{\partial a}{\partial u} \end{equation}$

我的理解是，我们正在对求偏导，并且我们正在将批评梯度反向传播给演员。 $l$ $u$

似乎是变量的可微函数，但在描述上面等式中发生的事情时我感到困惑，因为它似乎由两个函数相乘而成。 $l$ $a$

有人能解释一下上面数学中到底发生了什么吗？

1个回答

您对正在发生的事情的理解似乎是正确的，只是一点点澄清：应该是确定性策略的模型参数，而不是分布本身，就像是，但这可能就是你的意思（或者我可能不熟悉这个公式）。 $u$ $\mu(s,u)$ $w$ $Q(s,a,w)$

暗示的更新步骤应该使确定性策略更接近最优，从而最大化。作为，我们手上有一个复合函数 $\frac{\partial l}{\partial u}$ $\mu(s,u)$ $a$ $Q(s,a,w)$ $a = \mu(s,u)$

Q (s, a, w) = Q (s, μ (s, u), w)

$Q(s,a,w) = Q(s, \mu(s, u), w)$

当更新参与者参数以使相对于的梯度方向上迈出一步，因为它是一个复合函数，所以使用链式法则计算 $u$ $Q$ $Q$ $u$

\frac{\partial Q}{\partial u} = \frac{\partial Q}{\partial a} \frac{\partial a}{\partial u}

$\frac{\partial Q}{\partial u} = \frac{\partial Q}{\partial a}\frac{\partial a}{\partial u}$

符号有点草率，替换和等，但在文献中似乎也是如此。所以直觉上发生的事情包括两个部分： $\mu$ $a$

方向移动会增加，例如在一维中如果增加会增加并且如果增加会减少 $a$ $\frac{\partial Q}{\partial a}$ $Q$ $\frac{\partial Q}{\partial a} > 0$ $a$ $Q$ $\frac{\partial Q}{\partial a} < 0$ $a$ $Q$
的方向移动将增加，在一维中，示例与上面相同 $u$ $\frac{\partial a}{\partial u}$ $a$

如果将这些相乘并更新 $u$ 根据您最终移动的产品 $u$ 这样 $Q$ 通过增加或减少增加 $a$ ，这正是您想要做的。

其它你可能感兴趣的问题