时间序列的预测建模:我应该回顾多远?

数据挖掘 预测建模 时间序列
2022-02-13 02:31:06

我正在建立一个数据集分类模型,该数据集是通过记录系统在 2 年的时间段内的行为而收集的。该模型将在同一系统中实时使用。

现在我正在使用整个数据集(2 年)来构建我的分类器,但我怀疑这可能不是正确的方法。由于我正在尝试实时建模系统的行为,因此与系统的当前环境相比,数据集中的旧数据点可能变得无关紧要或没有信息(例如,系统输入的分布随时间急剧变化)。

我的问题是如何确定数据集的哪些部分用于训练,例如过去 1.5 年而不是全部 2 年。有没有一种统计方法可以帮助我确定特定时间段没有帮助或可能损害模型正确分类最近的数据点?

1个回答

保留最新的数据块(可能是一个月)作为验证数据。

尝试多种模型和训练这些模型的不同方法。例如,仅在最近几个月与整个时间段进行培训。

选取一小部分表现最好的人,在验证集上测试他们的表现,看看哪些表现更好。

这个答案没有什么特别之处。任何时候你想知道 X 比 Y 好,在一个保留的验证集上测试性能几乎总是要走的路。