决策树的深度/复杂度

数据挖掘 分类 统计数据
2022-02-13 19:57:00

我使用相同的方法/参数来创建两个决策树。这些树使用各种症状的存在或不存在对医疗状况的存在或不存在进行分类。医疗状况#1 有一棵树,医疗状况#2 有另一棵树。两棵树都基于相同的一组症状,由患者评分。如果医疗条件 #1 导致的树比医疗条件 #2 简单得多,这是否表明医疗条件 #2 是一种更复杂的疾病?如果是这样,任何人都可以向我指出一个说明树的复杂性/深度可以代表复杂条件的参考吗?


我的分析目标与这个问题是分开的。我试图找出我可以从我的分析中得出或建议的所有结论。是的,我有兴趣谈谈条件 A 到 B 的复杂性。条件何时复杂?当有许多症状时,通过症状来诊断疾病。如果很难诊断?是,如果症状很严重?NO可以同时具备这两个条件吗?

1个回答

不,你无法推断。我假设您具有相同的训练集和相同的预测变量(症状)。训练集中的唯一区别是每个患者的二元类标签。

较小的树只是意味着: - 对于给定的症状,可能更容易区分患有条件 1 的人和没有条件的人。(因为你用更少的信息有同样的确定性)这种区分在医疗状况 2 中似乎更难,这就是你必须考虑更多症状才能确定你的分类的方式。因此,如果条件 2 是一种非常温和的条件,即使对于专家来说也很难诊断,如果有人患有这种情况,那么它将导致一棵深树。