关于数据集我有一个训练数据集
- 129 列(最后一列是类,即 y 值)
- 6068 行
我必须训练一些算法来进行二进制分类。数据集有
- A型的701个例子
- B型5367个例子
测试集由 1398 个示例组成。这是我对各种算法的准确度。
- 投票合奏-> 0.73963
- 随机梯度提升 -> 0.77682
- Adaboost -> 0.75107
- bagging 分类器(决策树)-> 0.76538
- 随机森林 -> 0.75250
- 额外的树 -> 0.75393
以上所有结果均来自 kaggle,因此它们可能仅来自测试集的一半。以上方法是在python中使用scikit-learn库实现的
有人可以建议提高准确性的方法,可能是通过降维或更好的算法。另外,请尽可能提供示例代码。