我正在根据给定的文档集合训练 SVM 分类器。我从使用 500 个文档进行训练开始,然后再添加 500 个进行训练,以此类推。换句话说,我有三个训练集,500、1000、1500。较小的训练集是连续较大集的子集。我根据相同的测试集验证模型。
SampleSize Precision Recall Accuracy AUC
500 79.62% 67.49% 77.65% 0.854
1000 82.49% 77.94% 82.67% 0.890
1500 81.64% 78.08% 82.28% 0.888
当我们使用 1000 个训练集时,性能最好。看起来用于构建 1500 个训练集的额外 500 个训练样本实际上对模型有害。我该如何解释这个观察结果。