我正在尝试构建一个决策树算法,但我认为我误解了信息增益的工作原理。
假设我们有一个平衡的分类问题。因此,初始熵应该等于 1。
让我们定义信息增益如下:
info_gain = initial_entropy weighted_average(entropy(left_node)+entropy(right_node))
如果我们减少初始熵,我们就会获得信息,也就是说,
if info_gain > 0. If info_gain == 0
这意味着
weighted_average(entropy(left_node) + entropy(right_node)) == initial_entropy.
假设我们有 4 个特征
weighted_average(entropy(left_node) + entropy(right_node))是这个顺序
wa_of_feature_0 > wa_of_feature_1 > … > wa_of_feature_4。
info_gain 大于 0 越大,该特征在系统中的排序越多。
因此,基于我们的 4 个特征,最大信息增益将是
info_gain_max = initial_entropy - wa_of_feature_4
因为这会给我们比使用 1<=n<4 的 wa_of_feature_n 更大的数字。
这是正确的解释吗?