在 glm() 二项式回归中直接使用比例而不是 cbind() 是一样的 [R]?

机器算法验证 r 广义线性模型 二项分布
2022-03-23 15:32:30

我的响应变量是一个比例。直接使用比例而不是 cbind(Successes, Failures) 有区别还是有效?

例如:

glm(比例~其他变量,family=binomial)

其中,比例是成功的比例

代替:

glm (cbind(successes, failures) ~ 其他变量,family=binomial)

如果这是正确的,在任何情况下使用 cbind() 有优势吗?

2个回答

仅关于如何使用 R 的问题不在此处讨论;这将被关闭。

关于这种情况涉及的统计问题,@JeremyMiles 提供了一个很好的答案。

对于 R 特定的响应,它可以帮助您阅读?glm的文档:

对于二项式 GLM,先验权重用于给出当响应是成功比例时的试验次数

所以你需要:

glm(proportion ~ other variables, family=binomial, weights=totals)

首先,你没有得到相同的答案。(如果你认为你这样做,你能提供一个可重复的例子)。

当您使用比例时,您会丢弃有关效果确定性级别的信息。两次试验的 1 次成功与 100 次成功 / 200 次试验不同。