如果我们对每个数据都有错误。是否有可能将这些错误考虑到训练和预测中?
例如:
x errorOf_x
1 0.1
2 0.01
3 0.4
4 0.01
5 0.02
毫无疑问,第三个数据在训练中的权重应该小得多。例如在 scikit-learn 中如何处理它?
如果我们对每个数据都有错误。是否有可能将这些错误考虑到训练和预测中?
例如:
x errorOf_x
1 0.1
2 0.01
3 0.4
4 0.01
5 0.02
毫无疑问,第三个数据在训练中的权重应该小得多。例如在 scikit-learn 中如何处理它?
一般来说,任何监督方法都已经考虑了误差。
通常,模型是通过最小化训练实例上的错误来训练的,同时保持泛化能力。泛化能力至关重要:如果模型只是“背诵”每个实例的正确答案,那么它并没有真正学习,因为它无法预测任何新实例(这是极端的过度拟合)。因此,泛化能力是必要的,但这通常也意味着模型不能准确预测真实答案,而是捕获一般模式。
您可以尝试对实例进行加权,但性能可能会下降,因为模型已经尽最大努力将错误最小化。