是否有必要对日期时间戳上的时间序列数据进行排序?

数据挖掘 机器学习 时间序列
2022-03-14 14:29:01

假设我有一个银行的时间序列数据框,它记录了以下 16 个地区的案件数量(案件可以有多种用途 - 贷款、信用卡、房地产等):

application_date    branch_id    district    case_count
2017-04-01              1        A           40.0
2017-04-03              1        A           5.0
2017-04-04              1        A           4.0
2017-04-05              1        A           113.0
2017-04-07              1        A           76.0

但是,如果我按 对上述数据进行排序application_date,如下所示:

application_date    branch_id    district    case_count
2017-04-01              1         A           40.0
2017-04-01              62        B           5.0
2017-04-01              63        C           4.0
2017-04-01              64        D           113.0
2017-04-01              65        E           76.0

考虑到branch_iddistrict是分类变量,排序是否会影响标准 ML 模型(如随机森林和梯度提升模型)的性能及其预测准确性?

1个回答

排序数据不会影响模型的训练,它类似于更改随机种子。

它会影响您正在进行的验证。如果你做时间序列,你可以做滑动窗口或滚动窗口,他们需要在拆分之前对数据进行排序。

似乎您想使用监督学习进行时间序列回归,所以您可能想要做的是将您的问题更改为监督学习问题。你可以在这里看到更多但这是我从几行中猜测你的意思。