我是在 R 中使用随机森林的新手,我的目标是识别对因变量影响最大的自变量。我正在查看销售数据,销售是我的因变量(1 对 0) 我还有其他具有不同级别的变量,例如专业状态(退休、就业、失业)、搜索(我自己、父母、其他)和地区(北,西,南)等...
summary(data)向我提供了我的变量类是字符的信息(因变量显示 min、1st Qu、Media - 所以我假设 R 将其读取为连续的?)并且我相信在我可以运行之前需要考虑字符变量随机森林命令。是否有一个命令可以将所有字符转换为因子?
我的第二个问题是我是否应该从导入的表中删除客户的 id,或者如果我将其保留在 RF 模型中是否会影响结果?