百分比作为多元线性回归中的因变量
机器算法验证
回归
物流
多重回归
罗吉特
2022-03-17 07:59:55
2个回答
此处不应使用线性回归,也不应使用 logit 转换来转换数据。从某种意义上说,您有一个百分比变量,但这只是一种以简化方式显示数据的方式。从另一种意义上说,在已知的孩子总数中,你有一个肥胖的孩子。也就是说,您有二项式数据。
因此,您应该使用逻辑回归,使用实际孩子的数量。这将如何完成,确切地说,取决于您的软件如何实现这一点,有关 SAS 和 R 的讨论,请参阅:SAS 的 proc genmod 和 R 的 glm 之间的输出差异。人们通常将逻辑回归视为您的响应为 0/1 时使用的选项,但它实际上适用于任何二项分布,即使有多个伯努利试验。
在线性回归中,有几个假设包括自变量的正态性和独立性以及误差项。基于理论,因变量的期望也是正态分布的。然而,实际上很难看到因变量的完美钟形分布。因此,在我看来,更重要的是确保不违反基于拟合模型的误差项假设。
您可以执行诊断测试(例如 QQ 图)以确保残差 (1) 正态分布并且 (2) 自变量之间的方差相等。此外,如果您的很大,则该模型通常对假设非常稳健。您可以绘制变量的直方图以确保没有偏斜或重大偏差,否则您可以考虑数据转换。
最后回答你关于使用正确模型的问题,我认为只要你的和变量之间存在很强的线性关系,使用线性回归是合理的。只要模型不用于在拟合变量范围之外进行外推,就可以了。但是,当然,您可以使用对数二项式或 beta 回归等模型,它们满足的 {0,1} 区间,但每个模型对因变量都有不同的假设。在决定使用合适的模型之前,您应该首先检查 Y 的分布。
希望这可以帮助。
