机器算法验证 - 泊松/负二项式回归中的偏移量在哪里？ - 吾爱随笔录

泊松/负二项式回归中的偏移量在哪里？

机器算法验证回归负二项分布泊松回归抵消

2022-01-30 04:34:01

（首先，确认一下，偏移变量在泊松和负二项式回归中的作用方式基本相同，对吧？）

阅读有关偏移变量的使用的信息，在我看来，大多数消息来源都建议将该变量作为一个选项包含在统计包中（Stata 中的 exp() 或 R 中的 offset()）。如果您正在对计数数据进行建模并且计数可能发生的数量有限，那么这在功能上是否与将结果变量转换为比例相同？我的示例是查看员工解雇，我相信这里的偏移量只是 log（员工人数）。

作为一个额外的问题，我无法概念化前两个选项之间的区别（包括作为软件中的选项的曝光和将 DV 转换为比例）以及将 RHS 上的曝光作为对照。这里的任何帮助将不胜感激。

2个回答

回想一下，偏移量只是一个预测变量，其系数固定为 1。因此，使用带有对数链接的泊松回归的标准设置，我们有：

\log E (Y) = β^{'} X + \log E

$\log \mathrm{E}(Y) = \beta' \mathrm{X} + \log \mathcal{E}$

其中是偏移/曝光变量。这可以重写为 $\mathcal{E}$

\log E (Y) - \log E = β^{'} X

$\log \mathrm{E}(Y) - \log \mathcal{E} = \beta' \mathrm{X}$

\log E (Y / E) = β^{'} X

$\log \mathrm{E}(Y/\mathcal{E}) = \beta' \mathrm{X}$

您的基础随机变量仍然是，但通过除以，我们将模型方程的 LHS 转换为每单位曝光的事件率。但是这种划分也改变了响应的方差，所以我们在拟合模型时 $Y$ $\mathcal{E}$ $\mathcal{E}$

R中的示例：

library(MASS) # for Insurance dataset

# modelling the claim rate, with exposure as a weight
# use quasipoisson family to stop glm complaining about nonintegral response
glm(Claims/Holders ~ District + Group + Age,
    family=quasipoisson, data=Insurance, weights=Holders)

Call:  glm(formula = Claims/Holders ~ District + Group + Age, family = quasipoisson, 
    data = Insurance, weights = Holders)

Coefficients:
(Intercept)    District2    District3    District4      Group.L      Group.Q      Group.C        Age.L        Age.Q        Age.C  
  -1.810508     0.025868     0.038524     0.234205     0.429708     0.004632    -0.029294    -0.394432    -0.000355    -0.016737  

Degrees of Freedom: 63 Total (i.e. Null);  54 Residual
Null Deviance:      236.3 
Residual Deviance: 51.42        AIC: NA


# with log-exposure as offset
glm(Claims ~ District + Group + Age + offset(log(Holders)),
    family=poisson, data=Insurance)

Call:  glm(formula = Claims ~ District + Group + Age + offset(log(Holders)), 
    family = poisson, data = Insurance)

Coefficients:
(Intercept)    District2    District3    District4      Group.L      Group.Q      Group.C        Age.L        Age.Q        Age.C  
  -1.810508     0.025868     0.038524     0.234205     0.429708     0.004632    -0.029294    -0.394432    -0.000355    -0.016737  

Degrees of Freedom: 63 Total (i.e. Null);  54 Residual
Null Deviance:      236.3 
Residual Deviance: 51.42        AIC: 388.7

偏移量对 Poisson 和 NB 的作用类似。偏移量有两个功能。对于泊松模型，事件的实际数量定义了方差，因此这是必需的。它还提供分母，因此您可以比较费率。它没有统一。

仅使用比率会弄乱标准错误。拥有一个模型，可以像大多数泊松回归模型函数一样处理偏移量，同时处理标准误差和比较率。

其它你可能感兴趣的问题

上一篇贝叶斯定理直觉下一篇顶级主成分如何保持对因变量的预测能力（甚至导致更好的预测）？