数据挖掘 - 选择决策树中的第一个节点，基本示例 - 吾爱随笔录

我想知道我是否正确理解了选择节点的过程，并想看看这个例子是否有意义。使用以下数据：

我将拆分 A、B、C 上的数据并评估每个拆分的熵，其中熵是使用计算的

p \log_{2} (p) + (1 - p) \log_{2} (1 - p)

$p \; \log_2(p) + (1-p)\; \log_2(1-p)$

其中 $p$ 是特定拆分的成功比例。

当在 AI 上分裂时

  Y A B C
3 1 1 1 0
5 1 1 0 1

和

对于 $A = 1$ （第一个数据表）我有 $p = 1$ ，那么熵是 0。

对于 $A=0$ （第二张表）我有 $p=0.75$ 和熵 0.81

所以对于分裂 $A$ 我会说熵是

0 + 0.81 = 0.81

$0 + 0.81 = 0.81$

然后以类似的方式对 $B,C$ 执行此操作。

对于 $B=1$ 我发现 $p=1$ 所以熵 = 1

对于 $B=0$ ，我发现 $p=0.66$ 所以熵 = 0.91

那么在 $B$ 上分裂的熵是

0 + 0.91 = 0.91

$0 + 0.91 = 0.91$

对于 $C=1$ ，我发现 $p=0.75$ 所以熵 = 0.81

对于我发现所以熵 = 0 $C=0$ $p=1$

那么在上分裂的熵是 $C$

0.81 + 0 = 0.81

$0.81 + 0 = 0.81$

鉴于上述具有最高熵的分裂是，因此我会选择首先在上分裂。 $B$ $B$

我现在有一个带有一个节点的决策树，并且需要为和的每个分支选择下一个节点。 $B = 1$ $B=0$

以与上述相同的方式进行该选择。

上面的计算和推理是否有效？