在《统计学习要素》中,它在哪里谈到了处理二元分类的分类变量的“技巧”?

机器算法验证 随机森林 二进制数据 分类数据
2022-04-05 23:43:39

我一直在努力处理随机森林中的分类变量,以进行二元分类。这个教学视频的 8:15 到 9:30 之间,它谈到了一个“聪明的把戏”。

它说这个技巧可以在统计学习元素 “技巧”中找到,以处理随机森林中二元分类的分类变量。但是,当我阅读关于随机森林的部分时,我似乎找不到这个“聪明的把戏”!有人可以暗示正确的部分在哪里,还是我遗漏了一些明显的东西?谢谢你。

编辑:

我阅读了第9.2.4 节:其他问题 - 分类预测器,谢谢。但是,这句话对我来说不清楚:

“我们根据结果类别 1 中的比例对预测类别进行排序。

“比例”是指:

该类中 1 与该区域中示例总数的比率或该类中 1 与该类中示例数的比率

后者可能会被倾斜的数据抛出。假设有一个只有一个例子的类恰好是 1。根据“比例”的后一个定义,这意味着该类将排名第一,因为它的比例是 1。哪个比例定义是正确的?

1个回答

它在第 9.2.4 节的分类预测器下提到

这是“技巧”的一个基本示例以及为什么它很重要。

假设你有一个二元响应y有价值观{Yes,No}和一个分类变量x有水平{A,B,C,D,E}. 分开时x在给定的节点,你有15 (=2511)可能的分裂。在这种情况下,您可以考虑所有可能的分割并使用指定的杂质度量(例如熵、基尼指数)选择最佳分割点。但是,对于具有多个级别的分类变量,此策略将失败。

而不是考虑所有15可能的分裂,让我们把它减少到只有4分裂(或更少,如果有关系)。假设比例Yes0.8在班上A,0.7班级B,0.7班级C,0.2班级D, 和0.9班级E. 可以将其重新排序为(0.2,0.7,0.7,0.8,0.9)并分裂x假设值是连续的。一旦确定了最佳切点,比如说0.75,这些值被反向转换,所以左边的分割有x{B,C,D}右边的分裂有x{A,E}.