您可以在多元线性回归中使用百分比作为自变量吗?

机器算法验证 回归
2022-03-18 05:52:05

我很难找到一种确定的方法来确定我是否可以在多元线性回归中使用百分比度量作为自变量。

据我了解,由于某种原因,该百分比不能被视为真正的连续度量,并且违反了回归模型的某些假设。

编辑1:例如,我看到百分比数据是离散的,因为计算百分比的基础数据是离散的。

有人可以解释为什么百分比不是真正的连续测量,在什么情况下我可以使用百分比作为自变量?

编辑2:为了更清楚起见,我将在下面解释我希望具体完成的工作。目标是使用一个因变量(时间长度)并声称它由几个自变量解释(一些虚拟变量,一个百分比,不限于任何观察的任何特定值)。我知道线性回归的假设是自变量将是连续测量,这就是为什么我将虚拟变量用于二分分类变量。我只是想确保我不需要完全使用不同的分析技术,因为百分比在技术上是离散的(这甚至一定是真的吗?)。

编辑3:为了完全的特异性,

DV - 休产假的长度。IV's - 休假期间雇主支付的正常工资的百分比,以及与问题无关的其他虚拟变量。

3个回答

您所指的正态假设不适用于任何预测变量(毕竟二元预测变量怎么可能是正态的?),也不适用于结果。它适用于模型的残差。因此,在您安装模型之前的这个阶段,您不知道它是否成立。类似地,通常检查同方差性的基础是根据拟合值查看图中的残差。连续性的问题更加微妙,但没有测量变量,即使理论上连续在实际测量到有限精度时也是如此。

如果我对逗留时间进行建模,我会更担心偏差以及一些是否因为尚未恢复工作而受到审查的问题。您是否考虑过使用时间到事件模型(也称为 Cox 模型或比例风险)?

根据您所在辖区的规则,另一个问题是,如果产假工资在个月内处于较低水平处获得一堆值(我会想法)。jkjk

在区间 [0,1] 上可以认为百分比是连续的。百分比没有理由不能成为线性回归中的自变量。事实上,并不要求自变量必须是连续的。指标变量通常用作回归中的自变量。

假设您有一个模型 Y = B1 X1 + B2 X2 + E 其中 E ~ Nor(0,1)

设 X3、X4 为百分比,S1、S2 分别为 X1、X2 之和,则 X3 = X1/S1 100 且 X4 = X2/S2 100

然后百分比的模型'将是,Y = B3 X3 + B4 X4 + E'

估计值为 B = ((X'X)^-1) X'Y,估计值之间的关系为 B3 = B1/S1 100 和 B4 = B2/S2*100