glmnet-LASSO/Cox模型的系数解释?

机器算法验证 r 回归 cox模型 套索 网络
2022-03-30 20:35:28

我已经为具有 1200 个变量的 10K 观测值的大型数据集运行了 LASSO / Cox 模型。

fit    <- glmnet(   x, Surv(time, status), alpha=1, family='cox')
cv.fit <- cv.glmnet(x, Surv(time, status), alpha=1, family='cox')

CV后模型选取了56个系数非零的变量,有的系数为负值,有的系数为正值。我想知道我们是否就变量系数值的重要性发表了一些看法?

对于负值的系数和正值的系数,我们能说什么?

Some Variables  and its Coefficients Values
 CSI_SUPPORT               -2.51E-19
 Power.Glass.Moonroof       0.046261522
 FLOOR_PLAN_SUPPORT        -0.005169085
 R.Design.Nubuck.Off.Black  0.254841459
 TOTAL_AMOUNT              -6.19E-05
 K36100                    -0.062819229
 K36100                    -0.237663697
 Textile.Off.Black.seats    0.159802697
 Design.Leather.Black      -0.401298769
 MARKETING_SUPPORT         -0.000182012
1个回答

LASSO 拟合不携带有关统计显着性的信息。

这些系数的解释应该与标准 Cox 模型中的解释大致相似,即对数风险比。正系数表示变量与事件的较高风险相关,负系数反之亦然。显示的效果有多重要取决于变量代表什么以及学科知识。

根据这些变量的分布,您还可以考虑在拟合 LASSO 之前将它们缩放到单位方差,这将产生标准化系数作为相对变量重要性的度量。