我有一个数据集,其中这些是数据的分布:
Neutral. 15000
Negative 3000
positive 2000
我最感兴趣的是提高负面类别的表现。我想说中立和积极对我来说并不重要。我正在使用Bert 模型。
到目前为止我已经尝试过:
- 欠采样数据:负类结果较差
- 使用不同的方法来增强数据
NLPaug。结果不仅没有改善,反而下降了4% - 班级重量。给负类更多的权重,但不影响结果,在某些情况下下降
- 我试图改变 batch_size epoch 等......它只有 0.5% 的改进
现在我的问题是,这可能是什么问题?(我需要检查我的数据集吗?)
还有什么我可以尝试改进我的模型?,这是我到目前为止的一般结果
Negative 65
positive 72
neutral 90
这是我的混淆矩阵:
Pred_negative Pred_neutral Pred_positive
True_negative 138 101 3
True_neutral 53 1408 24
True_positive 2 25 69
我需要将负面类别至少提高 5%。