我有一个属于> 100个类的样本数据集。我想对这些类进行分类和/或聚类。我有以下问题:
1) 一个分类器对此类问题有效吗?还是每个类/子集一个分类器?(从我的角度来看:有效的解决方案是发现将每个类与所有其他类区分开来的特征,并将问题解决为 1-to-all 分类问题。对此有什么建议吗?)
2) 这些类中大约有 60% 最多有 1 或 2 个样本!如何从这些 1 样本类中创建新样本。在这种情况下,您认为任何 SMOTE(合成少数过采样技术)技术是否可行。
问候,
我有一个属于> 100个类的样本数据集。我想对这些类进行分类和/或聚类。我有以下问题:
1) 一个分类器对此类问题有效吗?还是每个类/子集一个分类器?(从我的角度来看:有效的解决方案是发现将每个类与所有其他类区分开来的特征,并将问题解决为 1-to-all 分类问题。对此有什么建议吗?)
2) 这些类中大约有 60% 最多有 1 或 2 个样本!如何从这些 1 样本类中创建新样本。在这种情况下,您认为任何 SMOTE(合成少数过采样技术)技术是否可行。
问候,
对于大多数分类算法来说,超过 100 个类应该不是问题。但是,如果该数字增加,您应该开始考虑用于大规模(在本例中为类数)分类的新模型。您可能会在这个(有点老的)研讨会上找到一些关于大规模(分层)文本分类的提示。
关于类中的元素数量,1 或 2 个元素太少了。根据我的经验,每个班级至少需要 10-20 个示例,尽管这取决于数据类型和收集等几个条件。
为了获得某些类的新示例,您是否考虑过某种类型的(半)手动文档标记来扩展您的训练集?
我希望这有帮助。
问候,