如何向多标签数据集添加新标签(如 Open Images)

数据挖掘 机器学习 深度学习 训练 多标签分类
2022-02-21 03:23:09

给定多标签数据集中的 N 个类和经过训练的分类器 C,我们如何向数据集中添加一个新的类 N+1,并微调经过训练的分类器 C,使其现在可以预测 N+1 个标签?(我们称之为微调的 N+1 类分类器 C')。让我们以 Open Images 为例,它在数据集中有 9,000,000 张图像。

问题在于数据,它是一个多标签数据集。假设我们有来自 N+1 类的 5000 张图像。

第一个问题是图像中除了 N+1 类(这些图像取自网络)之外,可能还有来自 N 个类中的任何一个的其他对象。因此,我们在 5000 张图像上运行经过训练的分类器 C,并对 5000 张图像中的其他 N 个类别进行机器注释。然后,我们使用 turkers 来验证所有标签。

现在第二个(未解决的)问题是,如何在原始的 9,000,000 个训练集中找到 N+1 类的实例?如果我们在原始训练集中没有发现这些“假阴性”,微调可能会产生意想不到的结果。

0个回答
没有发现任何回复~