我想知道最好的方法是建立一个预测信用申请的模型。
我有两张桌子,看起来像这样:
client_nr yearmonth total_nr_trx nr_debit_trx volume_debit_trx ... etc.
1 1 201201 94 49 6527529
2 1 201202 85 58 3475518
3 1 201203 94 61 31317405
4 1 201204 85 52 18869967
5 1 201205 93 53 2893105
client_nr yearmonth credit_application nr_credit_applications
1 1 201201 0 0
2 1 201202 0 0
3 1 201203 0 0
4 1 201204 1 1
5 1 201205 0 1
目标是确定哪些客户可能申请信贷。到目前为止,我已经使用第一个表为每个客户制作了大小序列(月份、特征)。
我的问题:
- 现在基于 ? 创建训练/测试折叠会是一个好主意
client_nr吗?还是我应该按月拆分? - 然后我应该选择第一个月作为特征,并创建一个标签几个月后表明客户是否已在那些个月?或者,还有更好的方法?
- 使用回归
nr_credit_applications或分类会更好credit_application吗?