假设我有一个银行的时间序列数据框,它记录了以下 16 个地区的案件数量(案件可以有多种用途 - 贷款、信用卡、房地产等):
application_date branch_id district case_count
2017-04-01 1 A 40.0
2017-04-03 1 A 5.0
2017-04-04 1 A 4.0
2017-04-05 1 A 113.0
2017-04-07 1 A 76.0
但是,如果我按 对上述数据进行排序application_date,如下所示:
application_date branch_id district case_count
2017-04-01 1 A 40.0
2017-04-01 62 B 5.0
2017-04-01 63 C 4.0
2017-04-01 64 D 113.0
2017-04-01 65 E 76.0
考虑到branch_id和district是分类变量,排序是否会影响标准 ML 模型(如随机森林和梯度提升模型)的性能及其预测准确性?