我目前正在使用支持向量机研究二进制文本分类模型(错误信息检测),并在 Python 中使用 TF-IDF 作为文本向量器。我已经尝试过训练模型,但是在测试时,我遇到了一个问题:
例如,我让模型将“今天发生 COVID-19”的条目预测为“真”,但在将文本更改为“今天没有发生 COVID-19”后,仍将其预测为“真”,其中应预测为"False"。
在这种情况下问题出在哪里?
我们怎样才能让算法像上面提到的那样对具有相反含义的文本进行分类?
笔记:
我在建模中使用的数据集中存在的文本是“COVID-19 正在发生”。
我还使用 predict_proba 来了解文本为 0(假)或 1(真)的概率。它表明我所做的两个条目在 predict_proba 中具有相同的输出,因此我可以说它读取这两个条目是相同的(可能是“今天发生了 COVID-19”)。