我的响应变量是一个比例。直接使用比例而不是 cbind(Successes, Failures) 有区别还是有效?
例如:
glm(比例~其他变量,family=binomial)
其中,比例是成功的比例
代替:
glm (cbind(successes, failures) ~ 其他变量,family=binomial)
如果这是正确的,在任何情况下使用 cbind() 有优势吗?
我的响应变量是一个比例。直接使用比例而不是 cbind(Successes, Failures) 有区别还是有效?
例如:
glm(比例~其他变量,family=binomial)
其中,比例是成功的比例
代替:
glm (cbind(successes, failures) ~ 其他变量,family=binomial)
如果这是正确的,在任何情况下使用 cbind() 有优势吗?
仅关于如何使用 R 的问题不在此处讨论;这将被关闭。
关于这种情况涉及的统计问题,@JeremyMiles 提供了一个很好的答案。
对于 R 特定的响应,它可以帮助您阅读?glm的文档:
对于二项式 GLM,先验权重用于给出当响应是成功比例时的试验次数
所以你需要:
glm(proportion ~ other variables, family=binomial, weights=totals)
首先,你没有得到相同的答案。(如果你认为你这样做,你能提供一个可重复的例子)。
当您使用比例时,您会丢弃有关效果确定性级别的信息。两次试验的 1 次成功与 100 次成功 / 200 次试验不同。