R中的随机森林,只有字符变量

数据挖掘 r 数据集 数据 随机森林 虚拟变量
2022-03-16 10:13:24

我是在 R 中使用随机森林的新手,我的目标是识别对因变量影响最大的自变量。我正在查看销售数据,销售是我的因变量(1 对 0) 我还有其他具有不同级别的变量,例如专业状态(退休、就业、失业)、搜索(我自己、父母、其他)和地区(北,西,南)等...

summary(data)向我提供了我的变量类是字符的信息(因变量显示 min、1st Qu、Media - 所以我假设 R 将其读取为连续的?)并且我相信在我可以运行之前需要考虑字符变量随机森林命令。是否有一个命令可以将所有字符转换为因子?

我的第二个问题是我是否应该从导入的表中删除客户的 id,或者如果我将其保留在 RF 模型中是否会影响结果?

1个回答

您可以检查class(df$dependent). 您期望它是数字。

要将多列转换为因子,您可以执行以下操作

factor_cols <- c("col_1","col_7"), 
df[factor_cols] <- lapply(df[factor_cols], as.factor)

如果您保留客户 ID,则在将模型应用于新客户时会遇到问题。