我正在尝试建立一个模型来预测电子邮件是否为垃圾邮件/非垃圾邮件。建立逻辑回归模型后,我得到了以下结果:
precision recall f1-score support
0.0 0.92 0.99 0.95 585
1.0 0.76 0.35 0.48 74
accuracy 0.92 659
macro avg 0.84 0.67 0.72 659
weighted avg 0.91 0.92 0.90 659
Confusion Matrix:
[[577 8]
[ 48 26]]
Accuracy: 0.9150227617602428
F1 分数是我正在查看的指标。我很难解释结果:我认为结果非常糟糕!我可以问你如何改进它吗?我目前正在考虑一个查看电子邮件语料库(主题+语料库)的模型。
在尔万的回答之后:
我对数据集进行了过采样,这些是我的结果:
Logistic regression
precision recall f1-score support
0.0 0.94 0.77 0.85 573
1.0 0.81 0.96 0.88 598
accuracy 0.86 1171
macro avg 0.88 0.86 0.86 1171
weighted avg 0.88 0.86 0.86 1171
Random Forest
precision recall f1-score support
0.0 0.97 0.54 0.69 573
1.0 0.69 0.98 0.81 598
accuracy 0.77 1171
macro avg 0.83 0.76 0.75 1171
weighted avg 0.83 0.77 0.75 1171