影响计算-回归

数据挖掘 r 回归 预测建模
2022-02-16 21:54:12

我正在处理以下数据:

userA_PDEB_PDEC_PDED_PDESalesypredSSEy^10.500.2501.7508.66041275.00272020.000.0010.0004.0225616.18099030.501.2510.754413.99656900.2064615.848741.251.0000.00011.02223121.4896050.000.7501.5007.24097452.431710

我正在尝试计算每个渠道的影响A_PDE, B_PDE, C_PDE, D_PDE但是,由于Sales = 0对于大多数记录,并且我的模型预测这些记录的销售额非零,我的R2价值非常低。我怎样才能解决这个问题?我不认为从模型中删除零销售记录是正确的。

1个回答

基于降维的答案:您应该考虑降低数据集的维度。有多种方法可以降低数据集的维数

  • 方差减少:删除方差非常低的变量
  • 通过相关性减少:删除与您的标准仅弱相关的变量。对于此步骤,在计算相关性之前将数据集拆分为训练和验证数据集非常重要,否则您的数据结果将被验证数据集中的信息污染。
  • 使用主成分分析 (PCA) 进行归约
  • 通过特征选择减少决策树
  • R2基于减少:排除数据集中的一个变量并计算R2. 然后排除数据集的另一个变量并计算R2. 对所有变量重复此过程并删除R2减少最少或增加最多。对减少的数据集重复此过程。停止时R2所有变量的变化都是相似的。
  • p-value based reduction:确定权重并删除权重p-值不显着。对于此过程,您必须考虑错误的累积并应用 Bonferroni 校正。

基于回归方法的答案:如果您真的想更准确地预测它们,另一种不降低维度的替代方法是使用加权最小二乘回归并在销售额上使用更高的权重。如果您的数据是高度非线性的,您还可以考虑使用非线性回归来捕捉模型的非线性。