数据挖掘 - 使用 Python 查找 Net Reclassification Improvement/Index 指标 - 吾爱随笔录

我正在研究一个具有约 5k 条记录和 33:67 类比例的二进制分类问题。

我的数据集中有 60 个特征/变量，最后我基于多种特征选择算法和领域理解得出了大约 10 个变量。

现在我想尝试这 10 个特性，并从这 10 个特性中获得最好的，从而获得高性能。

例如，拥有 6 个特征可能会产生 84% 的 AUC，而添加一个新特征（7 个特征）可能会产生 85% 的 AUC。

但是添加两个特征（8 个特征）可能会得到 83% 的 AUC。

我阅读了几篇文章和 F Harrel 博客文章，这些文章AUC并不总是比较模型性能的好指标。

q1) 那么您通常使用的其他最佳指标是什么？

q2) 如何计算净重分类改进？阅读它比 AUC 更好。

你们能帮帮我吗？