除了PROC VARCLUS、randomForest、glmnet和评估潜在预测变量之间的多重共线性(不考虑感兴趣的结果)之外,我正在寻找其他变量选择方法来代替使用逐步方法来构建更简约的二元逻辑回归模型(包含 8 到 12 个变量,用于从广泛的潜在预测变量(500 多个变量,200k+ 条记录)中预测结果,例如贷款支付/违约或当前/逾期支付历史)。
下面我包含了一个 R 脚本,使用FSelector来选择 8 个最高“排名”的变量:
library(FSelector)
fit <- information.gain(outcome ~ ., dataset)
fit2 <- cutoff.k(fit,8)
reducedmodel <- as.simple.formula(fit2,"outcome")
print(reducedmodel)
关于这个脚本和FSelector一般算法,我有两个问题:
上述脚本中的标准是Kullback-Leibler 散度
information.gain的同义词吗?如果是这样,有人可以用比维基百科更通俗的术语来解释这一点,因为我对这个统计领域相对较新,并且想从这个概念的正确想法开始,因为我将来可能会大量使用这种方法?这是一种有效的方法吗,如果存在有效方法,为二元逻辑回归模型选择所需数量的变量(例如,选择 8 个最高“排名”的变量用于简约模型)?如果没有,你能提供一种替代方法吗?
任何有关此主题和/或这些问题的见解或参考将不胜感激!