如何为 CART 中的决策树选择特征?

数据挖掘 分类
2021-09-21 13:55:31

假设我想使用 CART 作为分类树(我想要一个分类响应)。我有训练集,并使用观察标签对其进行拆分。

现在,要构建决策树(分类树),如何选择特征来决定哪个标签适用于测试观察?

假设我们正在研究基因表达矩阵,其中每个元素都是一个实数,是否使用类之间更远的特征来完成?

1个回答

在每个分割点,CART 将选择“最佳”分割观察的特征。什么是最好的,但通常会进行拆分,以便后续节点相对于目标更加同质/纯。有不同的方法来衡量同质性,例如基尼、熵、卡方。如果您使用的是软件,它可能允许您选择树算法将使用的同质性度量。

距离不是树木的一个因素 - 重要的是该值是否大于或小于分割点,而不是与分割点的距离。