我正在研究一个具有约 5k 条记录和 33:67 类比例的二进制分类问题。
我的数据集中有 60 个特征/变量,最后我基于多种特征选择算法和领域理解得出了大约 10 个变量。
现在我想尝试这 10 个特性,并从这 10 个特性中获得最好的,从而获得高性能。
例如,拥有 6 个特征可能会产生 84% 的 AUC,而添加一个新特征(7 个特征)可能会产生 85% 的 AUC。
但是添加两个特征(8 个特征)可能会得到 83% 的 AUC。
我阅读了几篇文章和 F Harrel 博客文章,这些文章AUC并不总是比较模型性能的好指标。
q1) 那么您通常使用的其他最佳指标是什么?
q2) 如何计算净重分类改进?阅读它比 AUC 更好。
你们能帮帮我吗?