我想创建一个患者接受外科手术后死亡率的预测模型。但我也想避免做大多数研究人员所做的事情,首先执行单变量分析,然后使用发现重要的变量使用某种逐步特征选择来执行多变量分析。所以我曾经glmnet进行特征选择,发现最初的 80 个变量中约有 20 个是显着的。然后,我使用其中一些变量(如文献支持)创建了一个统计模型,以使用glmR 中的函数预测死亡率。我认为该模型做得相当好,因为它的 ROC 为 0.8。但是,当我使用summary函数 我注意到在我使用的 15 个变量中,其中 5 个没有显着的 p 值。但是如果我删除这些变量,在我看来这个模型就没有意义(因为文献支持它们的使用),此外 ROC 降低到大约 0.75。
在这种情况下,如何分析这些变量?它们似乎是有用和必要的(因为它们有助于区分在对他们进行手术时会死或活的患者)但没有显着的 p 值。
请原谅我对代码的理解不够深入,因为我想要更多关于 10,000 英尺的概览,而不是从一开始就深入了解细节。一如既往,我感谢您的帮助!