优化交易执行的强化学习算法

数据挖掘 机器学习 算法 优化 强化学习 金融
2022-03-04 11:33:26

我的问题涉及论文中描述的算法: 优化交易执行的强化学习

本文使用强化学习技术来处理优化交易执行的问题。他们将数据划分为片段,然后应用(在链接中的第 4 页)以下更新规则(对成本函数)和算法来找到最优策略:

(T是总时间单位,I是体积,是可能的动作次数L,x 代表状态,c代表成本函数,c_im是某个状态和某个动作的即时奖励。n访问了状态-动作对)

在此处输入图像描述

以下是我的问题:

如果我理解正确,算法基本上是一种动态规划,当我们及时向后移动时。

  1. 为什么我们需要n在代价函数更新规则。我们不是每个州都只访问一次吗?

  2. 如果我理解正确,我们应该在每一集上运行这个算法(在论文中的实验中,他们有 45000 集)。在这种情况下,我们如何结合所有剧集的结果?也就是说,每一集都提供了一个最优策略。我们如何将所有这些政策组合成一个最终政策?

1个回答

为什么我们在成本函数更新规则中需要 n。我们不是每个州都只访问一次吗?

更新假设静态分布并估计平均值。由于每个估计值都可用,每次它在总数中的权重较小。该公式意味着第一个样本的权重为,第二个,第三个,当您连续应用由于样本引起的变化时,您需要获得平均值同时保持每一步均值的最佳估计。11213

这在我的 RL 经验中有点奇怪,因为它假设引导值(下一步的最大值)来自最终分布,以像这样对所有内容进行同等加权。但我认为这是可以的,因为从最后一步开始工作,因此每个引导值应该在返回到上一个时间步之前完全估计。

如果我理解正确,我们应该在每一集上运行这个算法(在论文中的实验中,他们有 45000 集)

这看起来像是在整个数据集上运行的算法,其中每一集的长度相同。所以你运行每个时间步(从结束时间步开始并向后工作,因为最终奖励是在剧集结束时建立的,所以这更有效),并在循环中的那个时间步从每个剧集采样。因此,这些值在该阶段在循环内组合,并且无需向算法添加任何内容来组合剧集。TWhile (not end of data)