数据挖掘 - 优化交易执行的强化学习算法 - 吾爱随笔录 - 问答

优化交易执行的强化学习算法

数据挖掘机器学习算法优化强化学习金融

2022-03-04 11:33:26

我的问题涉及论文中描述的算法：优化交易执行的强化学习

本文使用强化学习技术来处理优化交易执行的问题。他们将数据划分为片段，然后应用（在链接中的第 4 页）以下更新规则（对成本函数）和算法来找到最优策略：

(T是总时间单位，I是体积，是可能的动作次数L，x 代表状态，c代表成本函数，c_im是某个状态和某个动作的即时奖励。n访问了状态-动作对）

以下是我的问题：

如果我理解正确，算法基本上是一种动态规划，当我们及时向后移动时。

为什么我们需要n在代价函数更新规则。我们不是每个州都只访问一次吗？
如果我理解正确，我们应该在每一集上运行这个算法（在论文中的实验中，他们有 45000 集）。在这种情况下，我们如何结合所有剧集的结果？也就是说，每一集都提供了一个最优策略。我们如何将所有这些政策组合成一个最终政策？

1个回答

为什么我们在成本函数更新规则中需要 n。我们不是每个州都只访问一次吗？

更新假设静态分布并估计平均值。由于每个估计值都可用，每次它在总数中的权重较小。该公式意味着第一个样本的权重为，第二个，第三个，当您连续应用由于样本引起的变化时，您需要获得平均值同时保持每一步均值的最佳估计。 $1$ $\frac{1}{2}$ $\frac{1}{3}$

这在我的 RL 经验中有点奇怪，因为它假设引导值（下一步的最大值）来自最终分布，以像这样对所有内容进行同等加权。但我认为这是可以的，因为从最后一步开始工作，因此每个引导值应该在返回到上一个时间步之前完全估计。

如果我理解正确，我们应该在每一集上运行这个算法（在论文中的实验中，他们有 45000 集）

这看起来像是在整个数据集上运行的算法，其中每一集的长度相同。所以你运行每个时间步（从结束时间步开始并向后工作，因为最终奖励是在剧集结束时建立的，所以这更有效），并在循环中的那个时间步从每个剧集采样。因此，这些值在该阶段在循环内组合，并且无需向算法添加任何内容来组合剧集。 $T$ While (not end of data)

其它你可能感兴趣的问题

上一篇如果我的模型在 TensorFlow 中过拟合，这是一件好事吗？下一篇R：在 R 中读取大数据文件