通过其中一个独立特征对依赖特征进行归一化

数据挖掘 机器学习 回归 特征工程 数据泄露
2022-03-06 10:47:46

我有一个具有三个不同特征(x1、x2、x3)的数据集,我将使用回归模型根据这些特征预测 y。

x3 是客户投资的总金额,y 是该客户的利息。因此,对于所有情况 y < x3。x1 和 x2 是有关客户的其他信息。

我没有预测 y,而是尝试预测 y/x3,我得到了更好的结果。

在我的新模型中,我尝试使用 XGB 模型预测 y/x3 = f(x1, x2, x3)。我得到更好结果的原因是数据偏度的减少。

您认为这会导致数据泄露吗?请注意,我做了很多基于 x1、x2、x3 的特征提取,并将它们用于两个模型。

1个回答

我觉得完全没问题。实际上,第二个模型的数学表达式由 y=x3f(x1, x2, x3) 给出,它和第一个模型一样,只是有一些特定的特征工程。我看不出有任何数据泄露的可能性。