数据挖掘 - 在新数据集上改进 SVM 二元分类模型 - 吾爱随笔录

我正在努力为基于新闻类“犯罪”和“非犯罪”的推文分类创建一个 SVM 二进制分类器。我从各种来源下载了一个包含 6400 行的数据集，并在上面训练了我的模型。虽然我能够达到 95% 以上的准确率，但我担心的是它在新数据集上的表现。该系统将部署在实时流媒体推文上，那么我该如何放入反馈系统，例如我的模型不断自我更新？比如，对于训练模型中没有涵盖的新型犯罪类型新闻源，如何进一步整合它们？

我问的是一个广泛的方法问题，而不是一些特定的程序相关问题，因为我想自己弄清楚实现:)