如何估计时间序列数据中不可用的观测值?

数据挖掘 时间序列 rnn
2022-02-19 23:38:15

假设,我对体育数据进行了 30 秒的时间步长观察,在某些时间间隔内,游戏部分/完全停止。我正在尝试为时间序列分析准备数据。完全停止时将其归零是否合理?或者我必须插入值......

DeadBallMin这是在未考虑(游戏暂停)的情况下创建的数据示例...

** columns A and B are actual data observed during the time-step.

** Exp_Win_A and Exp_Win_B are monotonic increasing. And assume all the features are uniformly distributed within the time-step.

    A      B    Exp_win_A   Exp_win_B   DeadBallMin
0   1      0    0.891713    1.074992    0.000000
1   0      1    0.893859    1.076465    0.000000
2   0      1    0.930300    1.077941    0.036633
3   0      1    0.932539    1.112289    0.000000
4   0      0    0.934783    1.122372    0.907834

从上表中可以看出,在第二行,游戏停止了 33.67% 的时间步长。

问题

关于如何在保持行为的'DeadBallMin'同时融入时间 的任何建议?Exp_win_A & Exp_win_B

1个回答

为此目的,最常见的方法之一是为该间隔生成人工数据。用于此目的的最新颖和最强大的算法之一是生成查询网络(GQN)。

在该算法中,基本应用是通过观察对象的几个 2D 样本来创建对象的 3D 模型。于是,网络通过接收2D图像旁边的摄像头角度,尝试构建3D模型。

但是在这种情况下,对于时间序列数据,时间可以起到摄像机角度的作用。因此,您可以在数据丢失的情况下生成高精度的人工数据。

以下是该算法的简要说明。

这里还有一个使用 Pytorch 的实现。

有关更多信息,您可以阅读它的相应论文