4 类分类 - 机器学习模型

数据挖掘 机器学习 分类 监督学习
2022-03-09 02:14:25

我有一个包含近150个特征和60k数据的数据集。我的目标特征是连续变量代表小时。我将这段时间分为 4 类用户参与度(4 个小时范围)。GA使用逻辑回归实现随机森林SVM在需要时对数据进行适当的标准化。用于最佳特征子集选择。GAGAKNNGA

所有算法都给出了相似的46%准确度结果(对于几乎平衡的测试集)。

注意:训练也是在平衡的数据集上进行的。我想知道我哪里出错了?

我相信我在输入到目标映射的某个地方出错了。任何人都可以确认将连续目标变量(小时)分为 4 组是合理的吗?

1个回答

是的,对连续变量进行分箱以便可以采用离散值是合理的,只要您可以将此回归问题转换为分类问题。

请注意,在处理平衡的 4 类分类问题时,如果算法没有学到任何东西并且随机预测,它将达到 25% 的准确率。您的结果表明算法至少在学习一些东西这可能只是一项非常难以解决的任务,因为这些特征可能与输出变量几乎没有相关性。

我建议尝试更多有和没有 GA 的算法。