当观察到的样本是每个类别的概率时,如何确定分类概率的正确目标?

数据挖掘 分类 概率校准
2022-02-17 00:12:41

我有数据,其中每个事件的结果都可以用分类发生的概率来描述。例如,如果所有可能的班级结果都是 A、B、C 或 D,假设在一个事件中 7/10 人选择了 A 类,2/10 人选择了 B 类,1/10 人选择了 C。

该模型的目标是预测每个类别的概率尽可能接近观察到的事实。然而,目前尚不清楚如何确定合适的目标。以下是我考虑过的选项:

  1. 目标成为选择的主要类别。即,在上述情况下,A=1、B=0、C=0、D=0。

  2. 创建其他类/类别,然后成为所有可能观察到的概率的箱。例如,当 Pr(A) >= 0.7 时,上述事件将变为 A=1。

我认为选项 1 是最好的,因为选项 2 会产生很多类别和传播。但是,当考虑验证模型输出时,即每个样本的 Y = {A=0.9, B=0.1, C=0, D=0} 使用实际观察到的概率是否不是有利的?目标还有其他选择吗?

1个回答

恕我直言,“最干净”的选择是在原始分类目标上训练一个概率模型,然后获得每个类别的预测概率作为最终的“预测”。通过“对原始目标进行训练”,我的意思是将每个实例设计为一个事件,例如,为了表示 7/10 的人选择 A 类,总共有 10 个实例中目标是 A 类的 7 个实例。

  • 最简单的选项是朴素贝叶斯,但根据数据,它往往总是预测极端概率,这会破坏目的。
  • 一个特设的贝叶斯模型可以提供非常好的结果,但设计它可能需要更多的工作,具体取决于功能。