使用时间序列预测信用申请

数据挖掘 时间序列
2022-03-01 12:07:34

我想知道最好的方法是建立一个预测信用申请的模型。

我有两张桌子,看起来像这样:

   client_nr  yearmonth  total_nr_trx  nr_debit_trx  volume_debit_trx  ... etc.
1          1     201201            94            49           6527529   
2          1     201202            85            58           3475518   
3          1     201203            94            61          31317405   
4          1     201204            85            52          18869967   
5          1     201205            93            53           2893105   
  client_nr  yearmonth  credit_application  nr_credit_applications
1          1     201201                   0                       0
2          1     201202                   0                       0
3          1     201203                   0                       0
4          1     201204                   1                       1
5          1     201205                   0                       1

目标是确定哪些客户可能申请信贷。到目前为止,我已经使用第一个表为每个客户制作了大小序列(月份、特征)。

我的问题:

  • 现在基于 ? 创建训练/测试折叠会是一个好主意client_nr吗?还是我应该按月拆分?
  • 然后我应该选择第一个n月作为特征,并创建一个标签k几个月后n表明客户是否已在那些k个月?或者,还有更好的方法?
  • 使用回归nr_credit_applications或分类会更好credit_application吗?
1个回答

直觉上,我认为该模型需要基于经济背景的一些额外特征才能更准确,这也是跨时间演变真正重要的部分。

  • 现在基于 ? 创建训练/测试折叠会是一个好主意client_nr吗?还是我应该按月拆分?

如果可能的话,您需要为客户提供完整的时间序列作为实例,所以我会说拆分客户编号要好得多。但是从全套客户 ID 中随机选择客户编号,因为客户编号可能是按照特定的时间顺序分配的。

  • 然后我应该选择第一个n月作为特征,并创建一个标签k几个月后n表明客户是否已在那些k个月?或者,还有更好的方法?

这取决于确切的目标和所使用的算法类型,但 afaik 通常使用时间序列,在给定过去和当前特征以及过去标签(或过去预测标签)的任何给定时间预测标签。

  • 使用回归nr_credit_applications或分类会更好credit_application吗?

这对于您的应用程序或正在使用的算法来说更方便,因为准确性应该非常相似(当然假设您使用相同的方法)。