我正在做一个简短的数据科学项目来比较不同分类方法的准确性。这些小组决定使用并比较随机森林、朴素贝叶斯和 SVM。
我们使用的数据集有四个分类特征。每一个都有大量的唯一值。
- FaureA 中有 17370 个唯一值的 16537 个唯一组合。
- FeaureB 中有 13852 个唯一值的 13860 个唯一组合。
- FeaureC 中有 29 个唯一值的 3295 个唯一组合。
- FeaureD 中有 29 个唯一值的 1518 个唯一组合。
从我读过的内容来看,RF 和 NB 算法应该可以很好地处理标签编码,但 SVM 需要一种热编码。但是,这会使特征数量增加约 35K。性能成本似乎很重要。理想情况下,我们将对所有三种算法使用相同的编码。降低性能并尝试使用 PCA 之类的方法来减少功能会更好吗?