机器算法验证 - 在 glm() 二项式回归中直接使用比例而不是 cbind() 是一样的 [R]？ - 吾爱随笔录

机器算法验证 r 广义线性模型二项分布

2022-03-23 15:32:30

我的响应变量是一个比例。直接使用比例而不是 cbind(Successes, Failures) 有区别还是有效？

例如：

glm（比例~其他变量，family=binomial）

其中，比例是成功的比例

代替：

glm (cbind(successes, failures) ~ 其他变量，family=binomial)

如果这是正确的，在任何情况下使用 cbind() 有优势吗？

2个回答

仅关于如何使用 R 的问题不在此处讨论；这将被关闭。

关于这种情况涉及的统计问题，@JeremyMiles 提供了一个很好的答案。

对于 R 特定的响应，它可以帮助您阅读?glm的文档：

对于二项式 GLM，先验权重用于给出当响应是成功比例时的试验次数

所以你需要：

glm(proportion ~ other variables, family=binomial, weights=totals)

首先，你没有得到相同的答案。（如果你认为你这样做，你能提供一个可重复的例子）。

当您使用比例时，您会丢弃有关效果确定性级别的信息。两次试验的 1 次成功与 100 次成功 / 200 次试验不同。

其它你可能感兴趣的问题