数据分布和特征缩放技术

机器算法验证 机器学习 分布 数据集 正常化 标准化
2022-03-23 20:03:18

人工智能/机器学习新手。特征缩放的理解是,它是一组用于抵消具有不同比例/范围的不同特征的影响的技术(这会导致模型错误地增加/减少它们的权重)。

我一直在阅读的两种最常见的技术是标准化(在 0 和 1 之间调整特征值)和标准化(将特征值调整为 0 均值和 1 标准差)。

据我所知,当您的数据是非高斯/“钟形曲线”时,归一化似乎效果更好,而当它高斯时,标准化效果更好。但是我在任何地方都找不到一个像样的解释来解释为什么会这样!

为什么您的数据分布会影响特征缩放技术的功效?为什么归一化对非高斯有好处,而标准化对?您会在非高斯数据上使用标准化的任何极端情况?除了这两个,还有什么其他的主要技术?

例如,我发现这篇关于通过各种分布表征数据集的优秀论文所以我想知道当数据是几何分布或指数分布等时是否有特征缩放方法。如果是这样,它们是什么?!

2个回答

我不能谈论机器学习,但我可以谈论缩放。

从我们的标签维基:

tl;博士版本第一:

指缩放[0,1]范围内的所有数值变量,如使用公式:

xnew=xxminxmaxxmin

指对数据集进行变换,使其具有零均值和单位方差,例如使用以下等式:

xnew=xx¯s

那是,不依赖于基础分布;根据高斯分布的参数转换数据。

更全面的解释:

“规范化”是指几个相关的过程:

  • (“特征缩放”)一组最大值为最小值为的数字可以通过仿射变换转换为的范围(这相当于改变它们的测量单位)Mm01x(xm)/(Mm)

  • 一组表示概率或权重的正数可以统一重新缩放以求和为单位:将每个 的总和{pi}pipi

  • 类似地,分布(或实际上任何具有有限非零积分的非负函数)可以通过将其值除以积分来归一化为具有单位积分。

  • 范数线性空间中的向量通过将其除以其范数来归一化(到单位长度)。这是包含作为特殊示例的前述两个操作的一般程序。

的范围可以 通过将先前的单位归一化值乘以 到任何所需的限制 010αα

存在其他类型的操作,其具有重新表达预定范围内的值的类似意图。其中许多是非线性的,并且倾向于在专门的环境中使用。

标准化:

移动和重新调整数据以确保零均值和单位方差。

具体来说,当是一批数据时,其均值为,方差为其中(选择因应用而异)。标准化将每个替换为(xi),i=1,,nm=(ixi)/ns2=>v=(i(xim)2)/ννnn1xizi>=(xim)/s

它不依赖于高斯分布,它依赖于使用此特征的模型。标准化(或 Z-score 标准化)的结果是特征将被重新缩放,以便它们具有标准正态分布的属性,μ=0 and σ=1这有助于在不同的情况下,例如当您想要计算测量变量之间的距离时使用不同的单位,或更重要的单位,当你的算法使用需要这个时,例如当它使用梯度下降时,如果特征不在同一尺度上,一些特征可能会比其他特征更新得更快。这些算法如:

  • 具有欧几里得距离度量的 k 最近邻
  • k-means(参见 k-最近邻)
  • 另一方面,逻辑回归、SVM、感知器、神经网络等我们有 Z-score 归一化(或标准化)是所谓的 Min-Max 缩放。在这种方法中,数据被缩放到一个固定的范围 - 通常是 0 到1(不总是)。现在的问题是:Z-score 标准化还是 Min-Max 缩放?这个问题没有明显的答案:

这真的取决于应用程序。

我有一些例子给你:

在聚类分析中,标准化可能特别重要,以便根据某些距离度量比较特征之间的相似性。另一个突出的例子是主成分分析,我们通常更喜欢标准化而不是 Min-Max 缩放,因为我们对最大化方差的组件感兴趣。但是,这并不意味着 Min-Max 缩放根本没有用!一个流行的应用是图像处理,其中必须对像素强度进行归一化以适应特定范围(即 RGB 颜色范围为 0 到 255)。此外,典型的神经网络算法需要 0-1 比例的数据。