我正在使用 Spark 的机器学习库,并且功能是分类的。特征是字符串,Spark 的 MLlib(与许多其他机器学习库一样)不接受字符串作为输入。
克服这个问题的正常过程是将字符串转换为整数,然后对这些整数进行编码(例如使用 onehotencoder),因为转换为整数意味着特征之间存在排序。
我的问题是——分类特征总是需要编码吗?在什么情况下可以使用整数而不是编码?
我正在使用逻辑回归和朴素贝叶斯。当使用整数作为特征时,我得到 84% 的准确率,当这些整数被编码时,我得到 82% 的准确率。
有必要编码吗?