在新数据集上改进 SVM 二元分类模型

数据挖掘 数据挖掘 分类 文本挖掘 支持向量机
2022-03-06 00:39:31

我正在努力为基于新闻类“犯罪”和“非犯罪”的推文分类创建一个 SVM 二进制分类器。我从各种来源下载了一个包含 6400 行的数据集,并在上面训练了我的模型。虽然我能够达到 95% 以上的准确率,但我担心的是它在新数据集上的表现。该系统将部署在实时流媒体推文上,那么我该如何放入反馈系统,例如我的模型不断自我更新?比如,对于训练模型中没有涵盖的新型犯罪类型新闻源,如何进一步整合它们?

我问的是一个广泛的方法问题,而不是一些特定的程序相关问题,因为我想自己弄清楚实现:)

1个回答

某些 SVM 选项支持 SVM 的在线学习(例如,具有 SGD 的线性 SVM 可以轻松更新)。

有一些实现可以解决所有 SVM 的在线学习问题。

https://stats.stackexchange.com/questions/26041/can-svm-do-stream-learning-one-example-at-a-time

如果您的模型不是非常大,那么定期在所有数据上训练一个新模型也可能不是太糟糕。