我正在努力为基于新闻类“犯罪”和“非犯罪”的推文分类创建一个 SVM 二进制分类器。我从各种来源下载了一个包含 6400 行的数据集,并在上面训练了我的模型。虽然我能够达到 95% 以上的准确率,但我担心的是它在新数据集上的表现。该系统将部署在实时流媒体推文上,那么我该如何放入反馈系统,例如我的模型不断自我更新?比如,对于训练模型中没有涵盖的新型犯罪类型新闻源,如何进一步整合它们?
我问的是一个广泛的方法问题,而不是一些特定的程序相关问题,因为我想自己弄清楚实现:)
我正在努力为基于新闻类“犯罪”和“非犯罪”的推文分类创建一个 SVM 二进制分类器。我从各种来源下载了一个包含 6400 行的数据集,并在上面训练了我的模型。虽然我能够达到 95% 以上的准确率,但我担心的是它在新数据集上的表现。该系统将部署在实时流媒体推文上,那么我该如何放入反馈系统,例如我的模型不断自我更新?比如,对于训练模型中没有涵盖的新型犯罪类型新闻源,如何进一步整合它们?
我问的是一个广泛的方法问题,而不是一些特定的程序相关问题,因为我想自己弄清楚实现:)
仅某些 SVM 选项支持 SVM 的在线学习(例如,具有 SGD 的线性 SVM 可以轻松更新)。
有一些实现可以解决所有 SVM 的在线学习问题。
https://stats.stackexchange.com/questions/26041/can-svm-do-stream-learning-one-example-at-a-time
如果您的模型不是非常大,那么定期在所有数据上训练一个新模型也可能不是太糟糕。