如何证明预测变量影响结果的合理性?

数据挖掘 机器学习 深度学习 数据挖掘 预测建模 特征选择
2022-03-05 02:02:12

我正在研究预测(二元分类)问题

目前我得到一个AUC score85-86F1-score81

问题

1)以上表现基于6个众所周知的特征

2)假设我添加了另一个功能,我看到我的AUC and F1 score改进提高了 1 或 2 分?那么这是知道它真的有助于/增加模型价值的唯一方法吗?

3)我如何证明这些特征真的有助于预测输出?

4) 有没有办法证明或验证添加此功能确实有助于我的模型并改善结果?是否仅使用AUC分数的变化?

5)例如,我可以添加多个特征,我的 AUC 增加了几个小数点,那么我可以说它们很重要或有用或推动预测吗?是的,当然,但是添加 10 个特征(其中 6 个特征真正影响结果,其余 4 个特征仅将 auc 增加几个小数点)。并没有真正过拟合。我对吗?因为我的预测分数不超过 86

1个回答

交叉验证

您有一个帖子,我们讨论了因果关系,但使用 ML 模型假设数据完全代表您的问题并包含所有信息。换句话说,您在火车数据中获取的每个模式,您都可以期望它在生产中表现得非常相似,因此在这个假设下,您想要“评估整个火车”(这就是您可以使用CV 做的事情。)如果它在您想要添加此更改的所有折叠中平均得分很高(无论是新功能)