我试图弄清楚为什么在使用决策树进行多类分类时,通常计算分数并应用 softmax,而不是仅仅取终端节点概率的平均值?
假设我们的模型是两棵树。树 1 的终端节点在具有 20% 类 1、60% 类 2 和 20% 类 3 的节点中具有示例 14。树 2 的终端节点在具有 100% 类 2 的节点中具有示例 14。那么我们的预测训练示例 14 是 [10%, 80%, 10%]。
为什么使用 Softmax 而不是这种平均方法?
注意:我希望将这些知识应用于更好地理解 xgboost 以及简单的 1 树分类模型。