我有一个不平衡的数据集(比例为 2:1),大约有 60 名患者和 80 个特征。
我执行了递归特征消除 (RFE) 和分层交叉验证,以将特征减少到 15 个,并且使用 Logistic 回归和/或 SVM 得到 AUC 为 0.9。我不完全相信我得到的 AUC,因为我认为它不会因为如此小的正类而正确概括。所以,我正在考虑对少数类进行过采样(K-means + PCA)并重新运行 RFE 方法,这有帮助吗?谢谢。
我的问题与这个问题或多或少相同:为什么高度不平衡的数据集的准确性在过采样后会降低? 但我确实使用 AUC。