机器算法验证 - 回归 - 预测的方差远低于目标的方差 - 吾爱随笔录

回归 - 预测的方差远低于目标的方差

机器算法验证回归多重回归多元分析套索 r平方

2022-04-09 19:00:20

我在具有 1.5MM 数据点和 120 个特征的数据集上使用非负套索（sklearn）。这是一个低 R2 环境（处理嘈杂的财务数据），所以 $R^2$ 约为 10%。不过，我更担心的是，预测的标准差大约是 $\frac{1}{4}$ 目标变量的标准差。同样，mean(abs(target)) / mean(abs(predicted)) 大约是 $\frac{1}{4}$ .

我怎样才能让这个比率更接近1？我愿意牺牲一些 $R^2$ 为达到这个。我是否需要做不同类型的回归，以某种方式转换我的特征，或者还有什么可以做的吗？换句话说，对于我的应用程序来说，预测太平滑了。

如果可能的话，我想建议如何获得与目标大小相似的结果（预测），同时仍然具有相似（现在要低得多） $R^2$ .

也许我应该使用不同的目标函数而不是 min。平方和？

1个回答

我的回答将集中在基线 OLS 案例上，但是对于 Lasso 等技术的机制是相似的（尽管我承认我不知道如何 $R^2$ 为此类方法计算）。另外，我的回答与样本内拟合有关。

回顾 $R^2$ 被定义为（还记得拟合值的平均值等于 $y$ , $\bar y=\bar{\hat{y}}$ )

R^{2} = \frac{(\hat{y} - \bar{y})^{'} (\hat{y} - \bar{y})}{(y - \bar{y})^{'} (y - \bar{y})},

$R^2=\frac{(\hat y-\bar y)'(\hat y-\bar y)}{(y-\bar y)'(y-\bar y)},$ 我们可以将其改写为解释的方差与因变量的方差之比，

R^{2} = \frac{\frac{1}{n - 1} \sum_{i} ({\hat{y}}_{i} - \bar{y})^{2}}{\frac{1}{n - 1} \sum_{i} (y_{i} - \bar{y})^{2}} = \frac{{\hat{σ}}_{\hat{y}}^{2}}{{\hat{σ}}_{y}^{2}},

$R^2=\frac{\frac{1}{n-1}\sum_i(\hat y_i-\bar y)^2}{\frac{1}{n-1}\sum_i( y_i-\bar y)^2}=\frac{\hat\sigma^2_{\hat y}}{\hat\sigma^2_{y}},$ 所以，当你情绪低落时

R^{2}

$R^2$ ，即等于说预测的标准差小于目标变量的标准差。更何况，如果你“牺牲”

R^{2}

$R^2$ ，这个比例只能进一步降低。

这是一个小图形说明，其中 $y_i$ （蓝色）和拟合值（鲑鱼）投影到 y 轴上，对于其中的数据集 $R^2$ 相对较低。正如预期的那样，我们观察到拟合值的变化更小。

其它你可能感兴趣的问题

上一篇对于 OLS，哪个在数值上更稳定：pinv vs QR 下一篇Welch t 检验自由度的准确值