数据挖掘 - 考虑不确定性 - 吾爱随笔录

数据挖掘机器学习分类

2022-02-21 22:28:11

如果我们对每个数据都有错误。是否有可能将这些错误考虑到训练和预测中？

例如：

x errorOf_x
1  0.1      
2  0.01
3  0.4
4  0.01
5  0.02

毫无疑问，第三个数据在训练中的权重应该小得多。例如在 scikit-learn 中如何处理它？

1个回答

一般来说，任何监督方法都已经考虑了误差。

通常，模型是通过最小化训练实例上的错误来训练的，同时保持泛化能力。泛化能力至关重要：如果模型只是“背诵”每个实例的正确答案，那么它并没有真正学习，因为它无法预测任何新实例（这是极端的过度拟合）。因此，泛化能力是必要的，但这通常也意味着模型不能准确预测真实答案，而是捕获一般模式。

您可以尝试对实例进行加权，但性能可能会下降，因为模型已经尽最大努力将错误最小化。

其它你可能感兴趣的问题