我正在对 Twitter 数据进行一些情感分析,我想比较朴素贝叶斯分类器和逻辑回归分类器,以确定它们的性能是否受到数据拼写检查的影响。特征提取器是一个简单的词袋,拼写校正算法是一个编辑距离python包。
现在对于逻辑回归,在拼写检查之后,准确率下降了 1%,误报和误报数提高了大约 20。我预计朴素贝叶斯的表现也一样,认为这可能与训练步骤有关,可能有些单词被错误纠正并且测试阶段受到影响。但它实际上获得了 2% 的更高百分比和更多的真阳性和真阴性(但也有更多的假阴性)。
算法的性质(生成/判别)是其背后的原因吗?或者它是我想念的东西,因为我现在无法理解它。(它们都使用相同的训练和测试数据、相同的预处理程序和相同的拼写校正算法)。
谢谢你的帮助!!
一个(总)菜鸟。