我目前有一个数据集,第 1 类有大约 8000 个短文本文件,第 2 类有大约 3000 个短文本文件。我应用了 LibSVM 并在交叉验证实验中尝试了几个参数组合。
一般一级精度在(85%、90%)范围内;2 类精度在 (70% , 75%) 范围内;1 类和 2 类的召回率都在 (80% , 85%) 范围内。
出于文本分类的目的,我按照常用方法构建文本特征空间,对文档进行标记,过滤停用词并使用 tf-idf 或二进制频率构建词向量等。我还尝试了 n-gram 模型来构建特征空间. 但是这些方法并没有大大提高性能。我想知道是否有任何其他方法可以帮助调整 LibSVM 以提高性能。LibSVM 为参数设置提供网格搜索,但运行速度很慢。