机器算法验证 - R中的逻辑回归（优势比） - 吾爱随笔录

R中的逻辑回归（优势比）

机器算法验证 r 物流优势比

2022-02-06 09:13:25

我正在尝试在R. 我参加过使用 STATA 涵盖此材料的课程。我发现很难在R. 这个领域成熟吗？似乎几乎没有可用的文档或指导。产生优势比输出似乎需要安装epicalc和/或epitools和/或其他，我无法开始工作，过时或缺乏文档。我曾经glm做过逻辑回归。欢迎大家提出意见。

我最好把这个问题变成一个真正的问题。如何运行逻辑回归并在中产生赔率R？

这是我为单变量分析所做的：

x = glm(Outcome ~ Age, family=binomial(link="logit"))

对于多变量：

y = glm(Outcome ~ Age + B + C, family=binomial(link="logit"))

然后，我查看了x、和。 ysummary(x)summary(y)

有x$coefficients什么价值吗？

4个回答

没错，R 的输出通常只包含基本信息，更多信息需要单独计算。

N  <- 100               # generate some data
X1 <- rnorm(N, 175, 7)
X2 <- rnorm(N,  30, 8)
X3 <- abs(rnorm(N, 60, 30))
Y  <- 0.5*X1 - 0.3*X2 - 0.4*X3 + 10 + rnorm(N, 0, 12)

# dichotomize Y and do logistic regression
Yfac   <- cut(Y, breaks=c(-Inf, median(Y), Inf), labels=c("lo", "hi"))
glmFit <- glm(Yfac ~ X1 + X2 + X3, family=binomial(link="logit"))

coefficients()为您提供估计的回归参数 $b_{j}$ . 更容易解释 $exp(b_{j})$ 虽然（拦截除外）。

> exp(coefficients(glmFit))
 (Intercept)           X1           X2           X3 
5.811655e-06 1.098665e+00 9.511785e-01 9.528930e-01

为了得到优势比，我们需要原始二分DV的分类交叉表和根据需要首先选择的某个概率阈值的预测分类。您还可以查看ClassLog()包中的功能（如相关问题QuantPsyc中提到的 chl ）。

# predicted probabilities or: predict(glmFit, type="response")
> Yhat    <- fitted(glmFit)
> thresh  <- 0.5  # threshold for dichotomizing according to predicted probability
> YhatFac <- cut(Yhat, breaks=c(-Inf, thresh, Inf), labels=c("lo", "hi"))
> cTab    <- table(Yfac, YhatFac)    # contingency table
> addmargins(cTab)                   # marginal sums
     YhatFac
Yfac   lo  hi Sum
  lo   41   9  50
  hi   14  36  50
  Sum  55  45 100

> sum(diag(cTab)) / sum(cTab)        # percentage correct for training data
[1] 0.77

对于优势比，您可以使用包vcd或手动进行计算。

> library(vcd)                       # for oddsratio()
> (OR <- oddsratio(cTab, log=FALSE)) # odds ratio
[1] 11.71429

> (cTab[1, 1] / cTab[1, 2]) / (cTab[2, 1] / cTab[2, 2])
[1] 11.71429

> summary(glmFit)  # test for regression parameters ...

# test for the full model against the 0-model
> glm0 <- glm(Yfac ~ 1, family=binomial(link="logit"))
> anova(glm0, glmFit, test="Chisq")
Analysis of Deviance Table
Model 1: Yfac ~ 1
Model 2: Yfac ~ X1 + X2 + X3
  Resid. Df Resid. Dev Df Deviance P(>|Chi|)    
1        99     138.63                          
2        96     110.58  3   28.045 3.554e-06 ***

如果您想将估计的效果解释为相对优势比，只需执行exp(coef(x))（给您 $e^\beta$ ，优势比的乘法变化为 $y=1$ 如果协变量与 $\beta$ 增加 1)。对于此数量的轮廓似然区间，您可以执行

require(MASS)
exp(cbind(coef(x), confint(x)))

编辑：@caracal 更快...

UCLA 统计页面有一个很好的在 R 中执行逻辑回归的演练。它包括一个关于计算优势比的简短部分。

EpiDisplay 包很容易做到这一点。

library(epiDisplay)
data(Wells, package="carData")
glm1 <- glm(switch~arsenic+distance+education+association, 
            family=binomial, data=Wells)
logistic.display(glm1)
Logistic regression predicting switch : yes vs no 

                       crude OR(95%CI)         adj. OR(95%CI)         P(Wald's test) P(LR-test)
arsenic (cont. var.)   1.461 (1.355,1.576)     1.595 (1.47,1.731)     < 0.001        < 0.001   

distance (cont. var.)  0.9938 (0.9919,0.9957)  0.9911 (0.989,0.9931)  < 0.001        < 0.001   

education (cont. var.) 1.04 (1.021,1.059)      1.043 (1.024,1.063)    < 0.001        < 0.001   

association: yes vs no 0.863 (0.746,0.999)     0.883 (0.759,1.027)    0.1063         0.1064    

Log-likelihood = -1953.91299
No. of observations = 3020
AIC value = 3917.82598

其它你可能感兴趣的问题

上一篇较小的数据集更好：这个陈述在统计中是错误的吗？如何正确反驳？下一篇揭穿错误的 CLT 声明