我将对一些推文进行情绪分析。目标是找出哪个帖子与特定主题有关,哪个帖子反对特定主题(哪个推文说这个产品很好,哪个说这个产品不好)。对于每个正面、负面和中性,我有大约 6000 条推文。我测试了一些模型,如朴素贝叶斯、神经网络、决策树和随机森林,但没有看到好的结果。当我提到混淆矩阵时,我看到许多正面和负面的预测可以互换。此外,当我尝试添加一些层(例如在 NN 中)时,它会过拟合。我使用这些模型,但几乎所有的结果都是一样的:
[(TF-IDF)] + [(Naive Bayes), (Decision Tree), (Random Forest)]
[(BERT), (Distilbert)] + [(Fully connected NN)]