我使用逻辑回归。我们知道它是一种监督方法,需要在训练和测试数据中计算特征值。有六个特点。尽管函数产生的这些特征的值不同并且它们的最大值可以是 1,但有四个特征(在训练数据和测试数据中)的值非常低。例如,它们的范围在 0 和 0.1 之间,从不为 1,甚至超过 0.1!!!。因此,这些特征的值彼此非常接近。其他特征呈正态分布(它们的范围在 0 到 0.9 之间)。所以这两种特征之间的差异很大,我认为这会给逻辑回归的学习过程带来麻烦。我对吗?!它是否需要对这些功能进行任何转换/规范化?任何帮助将不胜感激。
逻辑回归中的特征范围
数据挖掘
机器学习
分类
逻辑回归
特征选择
正常化
2022-02-17 00:36:15
1个回答
您不必标准化逻辑回归中使用的特征,但有时它会有所帮助。
如果您使用基于梯度的优化器(例如 SGD)来找到最佳权重,您应该标准化逻辑回归中使用的特征。这是因为当成本函数的偏导数在每个方向上具有相似的幅度时,优化器的性能会更好。当导数变化太大时,您将需要较低的学习率来进行补偿(使学习速度变慢,并且更容易陷入困境),否则优化器将不会收敛 - 它可能会振荡或开始发散。
其它你可能感兴趣的问题