随机森林和 LASSO 回归都给出了不同的变量重要性

机器算法验证 随机森林 套索
2022-04-09 12:59:03

我有一个包含 163 个观察值的数据集(世界上所有人口 > 1000000 的国家)和 290 个与其疾病负担和表现相关的变量。因为变量多于观察值,所以我无法运行标准线性回归。因此,我尝试了随机森林和 LASSO 回归。两者都赋予不同的变量重要性。在这种情况下,哪个最可靠?

2个回答

在深入比较之前,请确保这两种方法中的每一种都与自己一致。您可以通过引导整个变量重要性过程几次来发现这一点。绘制每个变量的原始变量重要性与从引导样本估计的重要性。

bootstrap 包括的样本并进行替换,并重复任何分析。重复必须“从头开始”。这是R中的过程:nn

n <- NROW(mydata)   # mydata = data table, data frame, or matrix
for(i in 1 : 5) {
    s <- sample(1 : n, n, replace=TRUE)
    f <- whateveranalysis(mydata[s, ])
    # Print what you need and look across the 5 bootstraps to
    # see the volatility
}

没有免费的午餐。你不可能事先知道。除非您有充分的理由偏爱一个而不是另一个1 ,否则您必须测试这两种解决方案才能做出正确的选择。


1.说,你真的想要一个线性模型,并且选择它而不是另一个可能实际上更好的解决方案的含义会感觉很好,但是你甚至不需要首先测试它。