将数据集拆分为两个可解释的子集

数据挖掘 分类 数据集
2022-03-11 20:35:09

是否有将数据集拆分为两个或多个子集的通用方法,以便可以更准确地解决生成的单独子集的分类问题?

我有一个非常不一致的数据集,我只能以 50% 的准确率对其进行分类。根据预测变量应该与输出变量相关的假设,我将集合分为两个子集。在我的第一个子集中,我只包括数据集中的样本,即预测变量与输出变量相关。剩余的样本进入第二个子集。之后,两个子集(1k 个样本/2k 个样本)表现更好,准确率从 50% 提高到 95%/65%。在这个具体的例子中,我强烈怀疑用于标记的类标签被不同的人解释不同,这导致了标签冲突。手动“强制执行”一种解释有助于区分这一点。

我想知道是否有一种通用方法可以为我的其他输出变量实现这一点。即,找到我的数据集的分离,以便可以使用某些机器学习算法对两个集合分别进行准确分类。

1个回答

大多数经典机器学习算法都假设目标被完全正确标记。如果您认为您的标签很嘈杂,那么应用技术来处理该问题是有意义的。

至于将数据集拆分为子组以提高性能,您描述的是任何基于树的机器学习算法任何基于树的学习算法的目标都是学习根据目标标签在特征空间中将数据拆分为更同质的组。