文本分类中的抽样:结果可以被认为是“可靠的”吗?

数据挖掘 机器学习 监督学习 采样 混淆矩阵 文本分类
2022-02-19 04:36:45

我正在测试不同的模型(SVM、Logistic 回归、朴素贝叶斯、随机森林)来预测垃圾邮件的类别。我的目标是一个二进制变量。我只分析文本,不分析其他字段。我的数据集包括

Label  
0.0    3333
1.0     768

如您所见,类不平衡存在一个大问题。我了解了下采样和上采样的使用,因此我在训练和测试数据集之前应用了它们。我在 F1、召回率和上采样准确率方面取得了不错的成绩(超过 88%;最大 97%),下采样不好(<=76%)。例如:

Down
              precision    recall  f1-score   support

         0.0       0.79      0.43      0.56       102
         1.0       0.61      0.87      0.76       114


Confusion Matrix: 
 [[ 49  60]
 [ 12 100]]


Up
              precision    recall  f1-score   support

         0.0       1.00      0.85      0.91       873
         1.0       0.87      1.00      0.94       884



Confusion Matrix: 
 [[772 141]
 [  20 822]]

我想问你这些值是否可以被认为是好的结果,或者它们不能。我正在考虑出版(不仅包括类似的分析),所以我想检查这些结果是否可以被认为是可靠的,尽管存在不平衡。

任何建议和意见都将受到欢迎。

1个回答

您的方法似乎有错误:

我了解了下采样和上采样的使用,因此我在训练和测试数据集之前应用了它们。

改变测试集的分布是不正确的。重采样时,重采样应仅应用于训练集。目标是强制模型考虑这两个类,因为在不平衡的情况下,模型倾向于关注多数类。但是“真实数据集”中类的真实比例仍然是一样的,测试集应该遵循这个真实比例。否则,在测试集上的性能看起来人为地好,即使分类器在真实数据上会犯更多错误,因为它没有相同的分布。

因此,恐怕您在重采样数据集上获得的性能值毫无意义。

我正在考虑出版(不仅包括类似的分析),所以我想检查这些结果是否可以被认为是可靠的,尽管存在不平衡。

如果您正在考虑发表同行评审的出版物,您还必须确保您的贡献是原创的(即新的)并且比现有方法具有一些优势。这意味着您需要了解垃圾邮件分类的最新技术(已经发表了很多关于此任务的论文),并展示您的方法与现有方法相比有何改进。理想情况下,这是通过证明您的新方法比使用基准数据集的最先进方法获得更好的性能来完成的。但在众所周知的问题上,通常很难超越最先进的性能。