机器算法验证 - 海量类的分类 - 吾爱随笔录

机器算法验证分类过采样

2022-04-18 05:26:31

我有一个属于> 100个类的样本数据集。我想对这些类进行分类和/或聚类。我有以下问题：

1) 一个分类器对此类问题有效吗？还是每个类/子集一个分类器？（从我的角度来看：有效的解决方案是发现将每个类与所有其他类区分开来的特征，并将问题解决为 1-to-all 分类问题。对此有什么建议吗？）

2) 这些类中大约有 60% 最多有 1 或 2 个样本！如何从这些 1 样本类中创建新样本。在这种情况下，您认为任何 SMOTE（合成少数过采样技术）技术是否可行。

问候，

1个回答

对于大多数分类算法来说，超过 100 个类应该不是问题。但是，如果该数字增加，您应该开始考虑用于大规模（在本例中为类数）分类的新模型。您可能会在这个（有点老的）研讨会上找到一些关于大规模（分层）文本分类的提示。

关于类中的元素数量，1 或 2 个元素太少了。根据我的经验，每个班级至少需要 10-20 个示例，尽管这取决于数据类型和收集等几个条件。

为了获得某些类的新示例，您是否考虑过某种类型的（半）手动文档标记来扩展您的训练集？

我希望这有帮助。

问候，

其它你可能感兴趣的问题