在线性回归中,当您对数值变量进行标准化时,得到的截距与样本的平均值相同。在具有数字连续变量的逻辑回归中,有什么方法可以通过截距来表达数据中基线概率的奇数比(平均响应概率)?
表示基线概率的逻辑回归截距
当所有自变量都设置为 0 时,截距可能被解释为估计的基线对数几率,或者在分类变量的情况下是参考类别。所有自变量设置为 0 时的概率为 log(intercept)/(1+log(intercept))。
对于标准化连续变量,截距是标准化变量为 0 时事件的估计对数几率。
问题是样本中的平均概率与标准化变量为 0 时的概率不同。如果在标准化变量 x 为 0 时发生事件(或任何因变量)的概率为 0.1,并且估计x 的系数为 1,这意味着对于 x 值为 1 的个体,优势比将为 exp(1)=2.71。我们可以计算出这样一个人发生事件的预期概率:
基本赔率 = 0.1/(1-0.1) = 0.11。此人的赔率:0.11 * 2.71 = 0.3 此人的概率 = 0.3/(1+0.3) = 0.23
现在,对于一个比 x 变量的平均值低一个标准差的人,优势比将为 exp(-1) = 0.37:
此人的几率:0.11 * 0.37 = 0.03 此人的概率 = 0.04
所以 x 的 +1 sd 表示概率为 0.23,-1 sd 表示概率为 0.03。如果我们改为计算 +2 sd 的概率,我们得到的概率是 0.45,而对于 -2 sd,我们得到的概率是 0.01。
很容易看出,样本中的平均概率将高于 x 值为 0 的个体的概率,因为概率因优势和优势比的工作方式而出现偏差。
至于你的问题,我认为不可能让截距代表平均概率,因为在逻辑回归中,(log)优势和优势比是估计的,而不是概率,并且平均概率在考虑中并没有真正意义逻辑回归。
除了截距和斜率满足平均预测概率等于用于拟合模型的数据集中但是我发现在线性模型或逻辑模型中考虑这一点并不是很有用,因为参考值的想法是任意的。例如,一个人可能将中位数或众数视为参考,而另一个人则将其视为均值。当包含分类变量时,事情会更加复杂。
我喜欢将截距视为一个任意常数,无论预测变量的数字原点是什么,它都能使模型正常工作。在 R 中,当您请求预测时,一切都会自动处理。