如何改进参数超出样本范围的数据的回归预测模型?

数据挖掘 回归 预言
2022-03-11 11:15:58

我一直在寻找一些方法来改进我的预测模型,但到目前为止找不到任何方法。我有用于预测的数据,包括 10 个数字特征。我使用了随机森林回归模型,它在训练集上完美运行(部分完美来自过度拟合)。

但是,对于某些特征不在样本数据范围内的数据点,该模型做得并不好。例如,样本中的参数 x 介于 0 和 2000 之间,但我们要预测的新数据点的 x 值为 3000。

我知道这是由于数据限制,但我想知道是否有任何方法可以生成样本或改进预测?

我想建立一个不包括这个参数的简单模型,但问题是这是我模型中最重要的参数。

任何提示表示赞赏。

1个回答

我遇到过强大的树学习者表现得像最近邻变体的情况:他们会学习划分搜索空间,以便只保留在某个有意义的轴上接近的示例(在我的情况下,lat 和 long :))。这仍然可以推广到共享这些特征的测试集中的示例,但不能推广到真正看不见的示例。或者换一种说法:该方法足够强大,可以找到运行良好的规则,但不要以您想要的方式概括(也就是过度拟合,但可能以特定方式)。对我有帮助的有两件事:首先,我只使用 KNN 测试了域的这一特性,只为其提供了特征空间的子集(果然 KNN 超过了 lat,lng 就像一个魅力)。这帮助我理解了在同一个时空坐标中的例子有一定的历史,所以第二个动作是消除训练空间中的那些例子,并在一组完全超出训练集坐标(空间和时间)的例子上进行评估。如果不看代码,很难说这种行为可能存在于您的情况中,但也许我的轶事会有所帮助。