假设您想要模拟某人在通过之前必须参加某项考试的次数(取决于一系列预测因素,例如练习、模拟考试、参加的课程等)。还假设大多数人在第一次尝试后通过,但其他人必须多次参加测试,并且分布看起来像 Poisson-ish。
如果要将因变量建模为所进行的测试次数,则最小计数将为 1。另一方面,如果要将因变量建模为所需的重考次数,则最小计数将为 0。两者在我看来,这些都是合理的做法,而后者只是前者的负1,即被转移。
从概念上讲,似乎这种差异(tests~x1+x2+x3... vs. resits~x1+x2+x3... or tests-1~x1+x2+x3...)不应该真正影响你的最终结论:如果练习减少了测试的数量,它也应该减少重考的数量,而且似乎应该以类似的程度这样做。
我的问题是:
使用(a)移位的因变量(resits)而不是(b)未移位的变量(测试)对模型参数有什么实际影响?例如,如果使用 resits,您通常会期望参数被高估还是被低估?如果有的话,您通常会认为差异会很大还是很小?还是这一切都非常依赖于无法判断的特定数据集?也就是说,测试和重新测试之间的概念相似性是否具有误导性,因为它让我认为我应该为两者获得相似的结果。
使用以下模型参数对模型参数有什么实际影响:
(a)零截断模型 - 例如,在 R 中,我会指定:
vglm(tests~x, data, family=pospoisson())和
(b)左移模型 - 例如在 R 中,glm(resits~x, family=poisson)?
此处讨论了移位与截断,但此讨论并未专门解决模型参数和重要性之类的问题。它还侧重于右移而不是左移。
我已经在我的数据上尝试了上述各种选项,结果发现基本 Poisson(y~x, fam=poisson)对预测变量的估计值低于 zero-truncated (y~x, fam=pospoisson),而 zero-truncated 的估计值又低于左移模型(y-1~x, fam=poisson). 不过,自举置信区间表明这些差异并不显着。然而,这样做并没有告诉我我是否可以期望它普遍成立,即测试和重考之间的概念相似性是否通常应该转化为相似的模型。就我而言,左移导致比零截断模型更高的参数,但通常情况是这样吗?在我的情况下,参数并没有显着不同,但一般情况下是这样吗?我意识到有人可能能够从数学上从第一原理中得出所有这些的答案,但我没有这样做的数学背景。
我问这个是另一个问题的前奏,在这里。由于我将在那篇文章中解释的原因,我必须左移我的响应变量,我想知道这在原则上是否有问题(在这种情况下,我很幸运,模型参数非常相似)。
*编辑:我的数据不是测试计数与重考计数的形式。我只是将这些用作说明,因为测试和重考之间的概念相似性相当明显。所以我的问题不是关于人们应该对这些变量使用什么回归,而是关于移位与截断对模型参数的影响 - 你会期望一个微不足道的差异,一个显着的差异,或者没有数据就无法判断? 但是,由于人们在下面提出了负二项式,我很高兴接受有关泊松或负二项式模型的这个问题的答案。