我想了解为什么“基尼指数根据“成功”或“失败”对分类目标变量进行操作,并且只执行二进制分割”?当我们使用 Giny impurity 选择属性时,为什么在拆分后不可能有 3 个决策?来源:https ://medium.com/analytics-steps/understanding-the-gini-index-and-information-gain-in-decision-trees-ab4720518ba8这不是唯一这样说的资源。
决策树 为什么基尼指数只用于二元选择?
数据挖掘
机器学习
分类
决策树
基尼指数
2022-02-24 22:59:04
1个回答
这是对基尼杂质的一个很好的解释:链接。我不明白为什么它不能推广到多元分裂。
二进制拆分是最容易做的事情(例如讨论:链接)。这就是为什么它在主流框架中实现并在无数博客文章中描述的原因。
非二进制拆分等效于二进制拆分序列(例如link)。然而,这使树变得复杂。此外,应用于特定数据集的特定树学习算法可能无法通过尽可能少的二进制拆分来找到非二进制拆分的表示。这将使树更加复杂且难以解释。
非二进制拆分可以更好地反映数据的结构。有关于它们的出版物(例如link和link),但是如果您想使用具有非二进制拆分的树,您可能找不到在一行代码中实现它们的框架,并且必须为它们编写代码从头开始(如果你成功了,请发布它并在评论中放一个链接 - 我会感兴趣)。