假设我们有一个二元分类问题。我们还有几个分类器。每个分类器不是将向量分配给类(0 或 1),而是返回给定向量属于类 1 的概率。这意味着对于每个必须分类的输入向量,我们得到一个介于 0 和1. 例如:
(0.81, 0.67, 0.43, 0.99, 0.53)
其中分量(概率)的数量等于分类器的数量。现在我们要“组合”这些“弱”分类器来获得“强”分类器。换句话说,我们需要找到一种方法将给定的概率向量映射到一个数字(概率)。
所以,我的问题是:“正确”的做法是什么?当然,我可以训练另一个使用概率向量并返回一个概率的分类器。换句话说,我们可以找出如何以经验的方式组合“弱”概率。然而,我假设,我们可以利用向量的分量不仅仅是“一些数字”(或特征),它们是概率,它们已经是预测,因此,它们必须组合成相应的适当的方式。
添加
在评论中,建议对“弱”概率进行平均。但是,如果可以估计每个“弱”分类器的质量(功率)(并且应该是可能的),那么抑制“坏”分类器是否有意义(例如通过使用它们的预测(概率)权重或完全忽略它们)?只使用一个(最好的)弱分类器有意义吗?检查弱分类器之间的相关性是否有意义。例如,如果两个“弱”分类器总是给出相同的结果,我们应该怎么做。我们不应该通过其中一个没有任何附加价值吗?