我正在研究线性回归问题。我的分析特征是使用 p 值和领域知识选择的。选择这些特征后,和的性能从 0.25 提高到 0.85。但问题是,使用领域知识选择的特征具有非常高的 p 值 (0.7, 0.9) 和非常低的 (0.002, 0.0004)。即使您的模型显示性能有所提高,添加此类功能是否有意义。据我所知,根据线性回归,最好只保留 p 值较低的特征。
任何人都可以分享他们的经验吗?如果是,那么我该如何支持我提出的具有高 p 值的新功能的提议。
我正在研究线性回归问题。我的分析特征是使用 p 值和领域知识选择的。选择这些特征后,和的性能从 0.25 提高到 0.85。但问题是,使用领域知识选择的特征具有非常高的 p 值 (0.7, 0.9) 和非常低的 (0.002, 0.0004)。即使您的模型显示性能有所提高,添加此类功能是否有意义。据我所知,根据线性回归,最好只保留 p 值较低的特征。
任何人都可以分享他们的经验吗?如果是,那么我该如何支持我提出的具有高 p 值的新功能的提议。
通常,添加更多特征会提高模型拟合的质量。
如果您的目标是最佳拟合建模,请添加尽可能多的特征(无论 p 值如何)。
有时人们关心简约的模型,他们会降低整体模型的拟合度,因为他们也看重更简单的模型。然后他们使用 p 值对特征应用阈值。