为非负整数响应选择回归模型

机器算法验证 回归 模型选择 泊松分布 负二项分布
2022-04-01 22:06:23

我有一系列非负整数和设计矩阵,其中是交互作用,而是我们要估计的参数。例如,数据看起来像y=(y1,y2,...,yn)y=β0+β1x1+β2x2+β3x1x2x0x101x1x2β0β3

y    x1    x2    x1*x2
10   0     0     0
23   0     1     0
18   1     1     1
19   1     0     0
25   0     1     0
...

我想估计系数并执行测试以查看是否有任何系数不为零。β0β1β2β3

有几种不同的回归模型可能适用于这种情况:

  1. 简单的线性回归:lm
  2. 泊松回归(当服从泊松分布时):家庭 = 泊松yglm
  3. 准泊松回归(当过度分散时;这意味着):with family = quasi-poissonysd(y)>mean(y)glm
  4. 负二项式回归(当过度分散时,:,在 MASS 包中。ysd(y)>mean(y)glm.nb

我想问的问题是:

  1. 我应该如何为这个数据集选择模型?有没有办法根据我的数据集的一些描述性统计数据来选择正确的模型?
  2. 我应该如何检查和验证拟合的选定模型是否适合我的数据?
1个回答

您的模型已完全饱和,因为您对每个可能的类别组合都有指标。因此,您已经正确指定了条件期望。

当正确指定条件期望时,任何基于线性指数族分布的 MLE 估计都是一致的。因此,您可以使用 Poisson 或许多其他分布。

正如 whuber 所暗示的那样,这个问题简化为估计均值和测试它们的差异,这可以在回归框架中方便地完成。