人工智能/机器学习新手。我对特征缩放的理解是,它是一组用于抵消具有不同比例/范围的不同特征的影响的技术(这会导致模型错误地增加/减少它们的权重)。
我一直在阅读的两种最常见的技术是标准化(在 0 和 1 之间调整特征值)和标准化(将特征值调整为 0 均值和 1 标准差)。
据我所知,当您的数据是非高斯/“钟形曲线”时,归一化似乎效果更好,而当它是高斯时,标准化效果更好。但是我在任何地方都找不到一个像样的解释来解释为什么会这样!
为什么您的数据分布会影响特征缩放技术的功效?为什么归一化对非高斯有好处,而标准化对?您会在非高斯数据上使用标准化的任何极端情况?除了这两个,还有什么其他的主要技术?
例如,我发现这篇关于通过各种分布表征数据集的优秀论文。所以我想知道当数据是几何分布或指数分布等时是否有特征缩放方法。如果是这样,它们是什么?!