百分比作为多元线性回归中的因变量

机器算法验证 回归 物流 多重回归 罗吉特
2022-03-17 07:59:55

尽管我看到了一些类似的线程,但我不相信我看到了以下问题的具体答案:

对于简单的线性或多元线性回归,如果您的因变量是百分比,是否违反了任何假设?我知道 Y 应该是连续的,但它在技术上是否也必须是无界的?尽管我了解有界因变量如何导致特定问题,但我从未将其列为假设之一。

就我而言,我正在为学校做一个多元回归项目,其中因变量是肥胖学童的百分比。因为 Y 是有界的,我应该进行 logit 转换还是 beta 回归?


作为对评论的回应:Y(pct_obese) 的内核密度图如下:边界处似乎没有聚集——相反,大部分数据徘徊在 20% 左右: 核密度图

2个回答

此处不应使用线性回归,也不应使用 logit 转换来转换数据。从某种意义上说,您有一个百分比变量,但这只是一种以简化方式显示数据的方式。从另一种意义上说,在已知的孩子总数中,你有一个肥胖的孩子。也就是说,您有二项式数据。

因此,您应该使用逻辑回归,使用实际孩子的数量。这将如何完成,确切地说,取决于您的软件如何实现这一点,有关 SAS 和 R 的讨论,请参阅:SAS 的 proc genmod 和 R 的 glm 之间的输出差异人们通常将逻辑回归视为您的响应为 0/1 时使用的选项,但它实际上适用于任何二项分布,即使有多个伯努利试验。

在线性回归中,有几个假设包括自变量的正态性和独立性以及误差项。基于理论,因变量的期望也是正态分布的。然而,实际上很难看到因变量的完美钟形分布。因此,在我看来,更重要的是确保不违反基于拟合模型的误差项假设。E(Y)Y

您可以执行诊断测试(例如 QQ 图)以确保残差 (1) 正态分布并且 (2) 自变量之间的方差相等。此外,如果您的很大,则该模型通常对假设非常稳健。您可以绘制变量的直方图以确保没有偏斜或重大偏差,否则您可以考虑数据转换。N

最后回答你关于使用正确模型的问题,我认为只要你的变量之间存在很强的线性关系,使用线性回归是合理的。只要模型不用于在拟合变量范围之外进行外推,就可以了。但是,当然,您可以使用对数二项式或 beta 回归等模型,它们满足的 {0,1} 区间,但每个模型对因变量都有不同的假设。在决定使用合适的模型之前,您应该首先检查 Y 的分布。XYY

希望这可以帮助。