我有一个包含 25,000 个不同客户的训练数据集,每个客户都有 50-500 次银行交易的交易历史(存款和取款,确切的 # 因客户而异)。每个客户都获得了一笔贷款(从 500 到 2000 美元),他们要么违约,要么没有违约(此信息在训练集中给出)。测试集有大约 15,000 个不同的客户(与上面不同的人),我需要根据他们的交易历史预测他们是否会违约。还有一个与每笔交易相关的字符串,给出交易类型(即,他们是否购买了啤酒、咖啡等)。
我想知道从机器学习的角度解决这个问题的最佳方法是什么?即,哪种模型最适合根据客户的交易历史来预测客户拖欠贷款的概率?
我认为 keras 中的神经网络将是最简单的方法,但由于输入大小可变(每个客户的交易数量不同),我不确定如何训练它。另外,我想知道我是否应该使用交易类型字符串,因为这增加了一个全新的难度元素(解析字符串并将其分类为高/低风险类型的交易等)......除非有库可以自动做到这一点..
谢谢