我最初为图像的每个标签训练了多个单独的二元分类器。然后,我意识到我可以为这个任务训练一个多标签模型。我为此使用了 binary_cross_entropy 损失而不是 categorical_cross_entropy,但除了更改损失函数之外,我没有进行重大更改。但是,我发现多标签分类器的性能仍然大大低于单个标签分类器。这很常见并且可以预期吗?有什么我遗漏的技巧吗?
谢谢!
我最初为图像的每个标签训练了多个单独的二元分类器。然后,我意识到我可以为这个任务训练一个多标签模型。我为此使用了 binary_cross_entropy 损失而不是 categorical_cross_entropy,但除了更改损失函数之外,我没有进行重大更改。但是,我发现多标签分类器的性能仍然大大低于单个标签分类器。这很常见并且可以预期吗?有什么我遗漏的技巧吗?
谢谢!
预计至少有两个原因:
多标签分类器可以使用有关其他类的额外信息,例如。通过推断“我要找马。我也知道房子和狗。虽然马/房子很容易划分,但我必须注意马和狗的划分。”。更具体地说:将其视为迁移学习。例如。当使用任何类型的神经网络时,早期的特征提取层会从额外的损失中获益,并且与许多二元模型相比,当你训练单个模型时,它会更普遍地学习。
保证多标签问题中的类比二元问题中的类更平衡。