我有一个包含近150个特征和60k数据的数据集。我的目标特征是连续变量代表小时。我将这段时间分为 4 类用户参与度(4 个小时范围)。GA使用逻辑回归实现随机森林SVM,并在需要时对数据进行适当的标准化。用于最佳特征子集选择。GAGAKNNGA
所有算法都给出了相似的46%准确度结果(对于几乎平衡的测试集)。
注意:训练也是在平衡的数据集上进行的。我想知道我哪里出错了?
我相信我在输入到目标映射的某个地方出错了。任何人都可以确认将连续目标变量(小时)分为 4 组是合理的吗?