为什么 GLM 的残差减去其对数似然的两倍?

机器算法验证 r 物流 广义线性模型 越轨
2022-04-08 12:57:17

我了解平方损失,添加一个1/2到目标函数将简化许多推导,因为平方的导数有一个常数2.

我们是否在做与逻辑损失类似的事情?如果不是,为什么残余偏差是负对数似然的两倍?

几行代码来演示我的问题。

fit=glm(vs~mpg+hp+wt,mtcars,family = binomial())
p=fit$fitted.values
y=mtcars$vs

# these two values are the same
fit$deviance/2
-sum(y*log(p)+(1-y)*log(1-p))
1个回答

不仅仅是物流。在 GLM 中更普遍地存在偏差。

实际上,由于与似然比检验有关的威尔克斯定理,出现了取两倍似然比对数的想法,它告诉我们2log(Λ)对于一对嵌套模型具有(渐近地)卡方分布,其中 df 等于维数差异。

在 GLM 的情况下,偏差是通过与完全饱和模型比较形成的,其中参数与观测值一样多。

有时只是简单2logL对于给定的模型被称为“偏差”,这(严格来说)是用词不当,但如果它仅用于计算(嵌套)模型之间的差异,这不会导致任何困难(完全饱和模型的贡献抵消了出,所以这些模型之间的差异将是相同的)。