直观地说,在拟合线性回归时使用比绝对必要更多的数据有什么好处?

数据挖掘 机器学习 线性回归
2022-02-27 06:14:11

如果我在向量中有 p 个特征,我可以通过仅使用输入中的 p 个独立行(数据点)来获得权重的唯一解决方案,那么为什么我应该使用比绝对必要更多的数据点?

它提供什么优势?

1个回答

如果您的样本(总体的一个子集)能够代表您的总体,则不需要使用您的所有数据。换句话说,如果您的模型可以从您的样本中提取所有可能的模式,那么它就足够了。它还将使您在训练时避免时间和空间的复杂性。但是,假设您的模型 1 是使用所有数据的子集进行训练的模型,而模型 2 使用您拥有的所有数据(验证集和测试集除外)进行训练。有可能在您进行性能评估时,您的测试集没有完全改组,并且某些类型的样本(或属于特定模式的样本)不在该测试集中,因此您在模型 1 中的准确性很高。换句话说,您的人口不包括特定模式的概率低于或等于您的子集不包含特定模式的概率。因此,如果我们想象您的测试数据被打乱了,或者您的人口仍然以某种方式包含特定类型的数据(或模式),那么它将在未来的数据中表现得更好。除非您 100% 确定您的样本可以完全代表您的总体(大多数情况下这几乎是不可能的),否则最好使用更多数据,这将减少虚假结果的机会。如果您的模型 2 中有异常值,也有可能表现得比模型 1 更差。

总而言之,除非您观察到使用更多数据会导致性能损失,否则请始终通过考虑您的测试集并不完美并且子集始终包含小于或等于整个人口的特征来使用所有数据。如果模型 2 的数据没有异常值,则模型 2 在统计上保证您在看不见的数据中比模型 1 具有更高的性能。因为它会比模型 1 更好地概括您的数据。