预测模型投入生产后,如何对其进行评估?

数据挖掘 机器学习 公制 表现 数据产品
2022-03-09 13:14:38

我有一个数据科学项目,预测客户的下一个购买日。客户一年的行为数据分为 9 个月和 3 个月进行训练和测试,使用 RFM 分析,我用不同的分类器训练了一个模型,最好的结果如下:

Accuracy of XGB classifier on training set: 0.93

Accuracy of XGB classifier on test set: 0.68

这是我学校的项目,我想知道,在现实世界的项目中,我们如何评估模型投入生产后的性能。如何衡量我的模型的成功程度?如果生产中的性能指标远低于我的测试结果怎么办?

2个回答

这其实是一个非常好的问题。答案很简单,但要视情况而定。一般来说,在将模型推向生产后,我们会应用审计流程。让我解释一下:实际上,正在投入生产的机器学习模型被推进以取代另一个过程(例如,手动过程 - 这是自动化的情况)。一开始机器学习模型预测的一切都通过另一个过程(例如,手动)进行审计,我们称这个阶段为试验阶段。通过将模型性能与手动过程进行比较,我们确定了模型的质量。一旦我们感到满意,我们就开始将审计百分比从 100% 降低到 5% 左右(审计百分比应该是多少背后有一些数学计算)。

事实上,理论上训练模型是另一回事,在生产中使用它们是另一回事。这确实是一个复杂的过程。顺便提一下:我们也喜欢实现一些保护机制来保护模型。例如数据漂移检测、不确定性检测等。

训练模型后,如果您想对新数据执行预测,类似这样的东西会有所帮助model.predict(new_data)如果您的模型在训练数据上表现良好而在测试数据上表现非常糟糕,主要原因是过度拟合(模型过于准确)。希望能帮助到你。