残差与拟合图的异方差

机器算法验证 回归 数据可视化 残差 异方差 假设
2022-04-03 22:13:57

我正在测试每盎司啤酒的价格(连续变量,数值范围大多在 0.1 到 0.5 美元之间)以及促销、广告和展示(均为二进制)是否对购买的盎司总量有影响(连续变量) . 这是我对 y 的对数变换之前的残差与拟合图:

在对 y 进行对数转换之前

这是对 y 进行对数变换后的残差与拟合图:

对 y 进行对数变换后

异方差性非常高(White 的一般 t 统计量接近 800)。

这是转换后的 y 的直方图:

在此处输入图像描述

非常感谢任何关于如何改进我的模型或在哪里寻找错误以改进异方差问题的想法或建议。

2个回答

您的响应变量并不是真正连续的。它可能是离散的(你不能买 0.5 盎司,而且,啤酒只有特定盎司大小)。此外,没有人可以购买少于 0 盎司的(您可以清楚地看到在您的顶部 - 未转换 - 残差图中的地板效应)。因此,使用 OLS 回归(假设正常残差)可能是不合适的。您可能应该尝试使用泊松回归。事实上,零膨胀泊松、负二项式或零膨胀负二项式更有可能是您最终需要的。

您的变量不仅明显是离散的,而且还清楚地表明左右两端不适合

在此处输入图像描述

残差图中明显的离散性(红色箭头)和缺乏拟合(绿色椭圆)。

您无法使用假设均值模型正确的检验统计量来正确评估异方差性……而显然不是。此外,t 值大的事实并不令人惊讶,因为样本量很大[一个大的 t 统计量并不是说“异方差性很大”,而是说“样本量很大,所以标准误差很小”。对推理的影响更多地通过的分子来衡量。t

那个情节中可能有异性恋,但不是很严重;有更重要的问题需要首先处理。

我建议考虑伽玛 glm 而不是用线性模型拟合日志(假设没有精确的零)。采用原木往往会使低端的离散性可能比使用原始规模的模型“显得更大”。

然后,您应该解决缺乏拟合问题,然后评估异质问题的程度,但不要依赖测试统计数据来评估它的大小/重要性