我正在查看决策树,但我不明白是什么让这些方法中的每一个都不同。有人可以清楚地解释这些之间的区别吗?谢谢你。
基尼指数、卡方和信息增益分裂方法有什么区别?
数据挖掘
决策树
2022-03-12 22:50:59
1个回答
据我了解,这三个人都希望最大限度地减少数据集中的错误分类数据点。(从逻辑上讲,如果您查找使用了哪些决策树)
但他们每个人都来自这个问题的另一面。
gini 杂质想要“更好的随机”
它将“我用随机标签标记随机数据”与可能被决策树拆分后的标签进行比较(希望您可以以比“随机随机随机”更好的结果拆分树)
信息增益想要小树
它使用来自信息论的知识。它使用“首选简单/小树”标准来模拟“好”和“坏”拆分之间的差异。因此,它希望以某种方式拆分数据,即女儿“尽可能纯”。
对于卡方......我发现了两件事:CHAID,一种(看似复杂的)决策树技术和卡方,用于在构建决策树后对其进行修剪。
一般来说,卡方起源于生物统计学。它给出了一个特征数,观察到的分布如何符合关于该分布的零假设。(生物学必须经常这样做。“我观察一些东西,我寻找解释,我形成一个假设,我探索这是否在统计上是可证实的”)
对于公式,请查看 Wikipedia 和其他来源。