我有数据,其中每个事件的结果都可以用分类发生的概率来描述。例如,如果所有可能的班级结果都是 A、B、C 或 D,假设在一个事件中 7/10 人选择了 A 类,2/10 人选择了 B 类,1/10 人选择了 C。
该模型的目标是预测每个类别的概率尽可能接近观察到的事实。然而,目前尚不清楚如何确定合适的目标。以下是我考虑过的选项:
目标成为选择的主要类别。即,在上述情况下,A=1、B=0、C=0、D=0。
创建其他类/类别,然后成为所有可能观察到的概率的箱。例如,当 Pr(A) >= 0.7 时,上述事件将变为 A=1。
我认为选项 1 是最好的,因为选项 2 会产生很多类别和传播。但是,当考虑验证模型输出时,即每个样本的 Y = {A=0.9, B=0.1, C=0, D=0} 使用实际观察到的概率是否不是有利的?目标还有其他选择吗?