过采样是否有助于泛化(小型不平衡数据集)?

数据挖掘 过拟合 概括 奥克
2022-02-22 14:28:10

我有一个不平衡的数据集(比例为 2:1),大约有 60 名患者和 80 个特征。

我执行了递归特征消除 (RFE) 和分层交叉验证,以将特征减少到 15 个,并且使用 Logistic 回归和/或 SVM 得到 AUC 为 0.9。我不完全相信我得到的 AUC,因为我认为它不会因为如此小的正类而正确概括。所以,我正在考虑对少数类进行过采样(K-means + PCA)并重新运行 RFE 方法,这有帮助吗?谢谢。

我的问题与这个问题或多或少相同:为什么高度不平衡的数据集的准确性在过采样后会降低? 但我确实使用 AUC。

2个回答

更大的问题可能是小问题n使用 60 个样本和 2:1 的比例,您在少数类中只有 20 个样本。泛化,无论使用什么机器学习技术,都将仅限于 20 个样本。

我在这里找到了一篇有用的文章。听起来你已经做了相当多的事情,但首先要问的最好问题是你是否可以获得更多数据。如果你不能得到更多的约会,那么你将不得不在文章中列出一些事情。在这些情况下,我发现查看混淆矩阵以及其他指标很有用,因为准确度指标可以隐藏底层细节。就像有可能获得很高的准确度分数但混淆矩阵很差,因为您只是准确地预测了多数类。希望这可以帮助。