我有一个具有三个不同特征(x1、x2、x3)的数据集,我将使用回归模型根据这些特征预测 y。
x3 是客户投资的总金额,y 是该客户的利息。因此,对于所有情况 y < x3。x1 和 x2 是有关客户的其他信息。
我没有预测 y,而是尝试预测 y/x3,我得到了更好的结果。
在我的新模型中,我尝试使用 XGB 模型预测 y/x3 = f(x1, x2, x3)。我得到更好结果的原因是数据偏度的减少。
您认为这会导致数据泄露吗?请注意,我做了很多基于 x1、x2、x3 的特征提取,并将它们用于两个模型。