考虑不确定性

数据挖掘 机器学习 分类
2022-02-21 22:28:11

如果我们对每个数据都有错误。是否有可能将这些错误考虑到训练和预测中?

例如:

x errorOf_x
1  0.1      
2  0.01
3  0.4
4  0.01
5  0.02

毫无疑问,第三个数据在训练中的权重应该小得多。例如在 scikit-learn 中如何处理它?

1个回答

一般来说,任何监督方法都已经考虑了误差。

通常,模型是通过最小化训练实例上的错误来训练的,同时保持泛化能力。泛化能力至关重要:如果模型只是“背诵”每个实例的正确答案,那么它并没有真正学习,因为它无法预测任何新实例(这是极端的过度拟合)。因此,泛化能力是必要的,但这通常也意味着模型不能准确预测真实答案,而是捕获一般模式。

您可以尝试对实例进行加权,但性能可能会下降,因为模型已经尽最大努力将错误最小化。