人工智能 - 在强化学习中使用经验回放时，使用哪个状态进行训练？ - 吾爱随笔录

在强化学习中使用经验回放时，使用哪个状态进行训练？

人工智能神经网络机器学习强化学习 q学习 dqn

2021-10-29 10:33:26

我对体验重播过程有些困惑。我理解为什么我们在强化学习中使用批处理，并且根据我的理解，一批状态被输入到神经网络模型中。

假设动作空间中有 2 个有效的移动（UP 或 DOWN）

假设批量大小为 5，5 个状态是这样的：

[s_{1}, s_{2}, s_{3}, s_{4}, s_{5}]

$[s_1, s_2, s_3, s_4, s_5]$

我们将这一批放入神经网络模型并输出 Q 值。然后我们把 $[s_1', s_2', s_3', s_4', s_5']$ 进入目标网络。

我感到困惑的是：

每个州在 $[s_1, s_2, s_3, s_4, s_5]$ 是不同的。

我们是否在所有 5 个状态通过神经网络后计算 UP 和 DOWN 的 Q 值？

例如，

[Q_{s_{1}} (UP), Q_{s_{1}} (DOWN)], [Q_{s_{2}} (UP), Q_{s_{2}} (DOWN)], [Q_{s_{3}} (UP), Q_{s_{3}} (DOWN)], [Q_{s_{4}} (UP), Q_{s_{4}} (DOWN)], [Q_{s_{5}} (UP), Q_{s_{5}} (DOWN)]

$[Q_{s_1}(\text{UP}), Q_{s_1}(\text{DOWN})], \\ [Q_{s_2} (\text{UP}), Q_{s_2}(\text{DOWN})], \\ [Q_{s_3}(\text{UP}), Q_{s_3}(\text{DOWN})], \\ [Q_{s_4}(\text{UP}), Q_{s_4}(\text{DOWN})], \\ [Q_{s_5}(\text{UP}), Q_{s_5}(\text{DOWN})]$

1个回答

状态的使用方式如下：

通常你的 $Q$ -network 将状态声明为动作空间上的输入和输出分数。IE $Q : \mathcal{S} \rightarrow \mathbb{R}^{|\mathcal{A}|}$ . 所以，在你的重播缓冲区中，你应该存储 $s_t, a_t, r_{t+1}, s_{t+1}, \mbox{done}$ （请注意，done 仅代表该剧集在此过渡中结束的位置，为了完整起见，我添加了它。

现在，当您进行批量更新时，您会从该重放缓冲区中随机均匀采样。这意味着你得到 $B$ 的元组 $s_t, a_t, r_{t+1}, s_{t+1}, \mbox{done}$ . 现在，我假设 $B=1$ 因为它更容易解释和扩展 $B > 1$ 应该很容易看到。

对于我们的状态动作元组 $s_t, a_t$ 我们想改变网络预测的这对更接近 $r_{t+1} + \gamma \arg\max_a Q(s,a)$ . 然而，我们的神经网络只将状态作为输入，并为每个动作输出一个分数向量。这意味着我们希望将网络的输出转移到状态 $s_t$ 朝着我刚才提到的目标，但只是为了行动 $a_t$ 我们拿走了。为此，我们只计算目标，即我们计算 $r_{t+1} + \gamma \arg\max_a Q(s,a)$ ，然后我们像普通神经网络一样进行梯度上升，其中目标向量与预测向量在任何地方都相同，除了 $a_t$ th 元素，我们将更改为 $r_{t+1} + \gamma \arg\max_a Q(s,a)$ . 通过这种方式，我们的网络更接近于我们的 Q-learning 更新，仅针对我们想要的操作，与 Q-learning 的工作原理一致。

您可以将神经网络参数化为一个函数也毫无价值 $Q: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$ 这将使训练更符合表格 Q 学习的方式，但在实践中很少使用，因为它的计算成本要高得多（你必须为每个动作做一个前向传递，而不是每个状态一个前向传递）。

其它你可能感兴趣的问题

上一篇在 DQN 中，神经网络中的参数何时根据收到的奖励进行更新？下一篇用于情感分类的 RNN 如何处理不同的句子长度？