我正在测试不同的模型(SVM、Logistic 回归、朴素贝叶斯、随机森林)来预测垃圾邮件的类别。我的目标是一个二进制变量。我只分析文本,不分析其他字段。我的数据集包括
Label
0.0 3333
1.0 768
如您所见,类不平衡存在一个大问题。我了解了下采样和上采样的使用,因此我在训练和测试数据集之前应用了它们。我在 F1、召回率和上采样准确率方面取得了不错的成绩(超过 88%;最大 97%),下采样不好(<=76%)。例如:
Down
precision recall f1-score support
0.0 0.79 0.43 0.56 102
1.0 0.61 0.87 0.76 114
Confusion Matrix:
[[ 49 60]
[ 12 100]]
Up
precision recall f1-score support
0.0 1.00 0.85 0.91 873
1.0 0.87 1.00 0.94 884
Confusion Matrix:
[[772 141]
[ 20 822]]
我想问你这些值是否可以被认为是好的结果,或者它们不能。我正在考虑出版(不仅包括类似的分析),所以我想检查这些结果是否可以被认为是可靠的,尽管存在不平衡。
任何建议和意见都将受到欢迎。