回归 - 预测的方差远低于目标的方差

机器算法验证 回归 多重回归 多元分析 套索 r平方
2022-04-09 19:00:20

我在具有 1.5MM 数据点和 120 个特征的数据集上使用非负套索(sklearn)。这是一个低 R2 环境(处理嘈杂的财务数据),所以R2约为 10%。不过,我更担心的是,预测的标准差大约是14目标变量的标准差。同样,mean(abs(target)) / mean(abs(predicted)) 大约是14.

我怎样才能让这个比率更接近1?我愿意牺牲一些R2为达到这个。我是否需要做不同类型的回归,以某种方式转换我的特征,或者还有什么可以做的吗?换句话说,对于我的应用程序来说,预测太平滑了。

如果可能的话,我想建议如何获得与目标大小相似的结果(预测),同时仍然具有相似(现在要低得多)R2.

也许我应该使用不同的目标函数而不是 min。平方和?

1个回答

我的回答将集中在基线 OLS 案例上,但是对于 Lasso 等技术的机制是相似的(尽管我承认我不知道如何R2为此类方法计算)。另外,我的回答与样本内拟合有关。

回顾R2被定义为(还记得拟合值的平均值等于y,y¯=y^¯)

R2=(y^y¯)(y^y¯)(yy¯)(yy¯),
我们可以将其改写为解释的方差与因变量的方差之比,
R2=1n1i(y^iy¯)21n1i(yiy¯)2=σ^y^2σ^y2,
所以,当你情绪低落时R2,即等于说预测的标准差小于目标变量的标准差。更何况,如果你“牺牲”R2,这个比例只能进一步降低。

这是一个小图形说明,其中yi(蓝色)和拟合值(鲑鱼)投影到 y 轴上,对于其中的数据集R2相对较低。正如预期的那样,我们观察到拟合值的变化更小。

在此处输入图像描述