这种标准化的名称是什么(产生均值 0 和 sd 1)?

机器算法验证 数据转换 术语 正常化 标准化
2022-04-07 07:39:42

是否有用于规范化某些数据的特定名称,使其具有 mean=0 和 sd=1?

还是我只是说“数据被标准化为均值=0和sd=1”?

4个回答

数量是一个标准分数因此,标准化是一种常用的引用方式。 z=Xμσ

我认为它只是称为z-score。

[ @ttnphns备注:这是正确的,但是“z-score”在统计中也有其他含义。

z 标准化,z 标准值 - 可能是线性变换到均值 0 和 sd 1 的最广泛使用的术语]

正如 ars 的回答所述,标准化是涉及以下内容的转换:

  • 均值居中,和
  • 重新调整为单位方差。

标准化的一般化白化球形化,其中一组一个或多个变量被线性变换(通常在均值中心之后),因此协方差矩阵是单位矩阵。一个很好的参考是:

A. Kessy、A. Lewin 和 K. Strimmer,“最佳美白和去相关”,统计,第 1 期。五月,页。2015 年 12 月 12 日。

你不得不说它是“均值零标准化”。除以原始计算的标准差,σ,导致标准偏差为 1 的标准化变量。它的平均值为零,因为它是“居中”的(也减去了平均值)。它也不是归一化,因为归一化意味着特征(变量)的最终范围是 [0,1],而均值零标准化特征的范围是从计算的最小值和最大值确定的,即 range= [Zmin,Zmax]。您还可以计算百分位数,这是一种归一化,因为最终范围是 [0,1]。

需要注意的是,均值零标准化和归一化不会消除偏度,因此如果原始特征的直方图(转换前)具有较重的左尾或右尾,则尾仍将保留在转换后的特征中。要在变换后摆脱尾巴,您必须使用范德瓦尔登分数(VDW)。

单个观察的范德瓦尔登 (VDW) 分数仅仅是观察百分位值的逆累积(标准)正态映射。例如,假设你有n=100对于连续变量的观察,您可以使用以下方法确定 VDW 分数:

  1. 首先,按升序对值进行排序,然后分配排名,这样您就可以获得排名Ri=1,2,,100.
  2. 接下来,将每个观测值的百分位数确定为pcti=Ri/(n+1).
  3. 一旦获得百分位值,将它们输入到标准正态分布的 CDF 的逆映射函数中,即N(0,1), 以获得Z- 每个分数,使用Zi=Φ1(pcti).

例如,如果您插入一个pcti值 0.025,你会得到1.96=Φ1(0.025). 插件值也是如此pcti=0.975, 你会得到1.96=Φ1(0.975).

VDW 分数的使用在遗传学中非常流行,其中许多变量被转换为 VDW 分数,然后输入到分析中。使用 VDW 分数的优点是可以从数据中消除偏度和异常值影响,如果目标是在正态性约束下执行分析,则可以使用它——并且每个变量都需要是纯标准正态分布,没有偏度或异常值。

下面是基于参数 ln(μ) =6,GSD 为 0.3,具有相应的变换:

  • n_V1(6,0.3)_1 - 归一化到范围 [0,1]
  • z_V1(6,0.3)_2 - 均值零标准化为范围 [Zmin,Zmax]
  • p_V1(6,0.3)_3 - 范围为 [0,1] 的百分位数
  • vdw_V1(6,0.3)_4 - van der Waerden 得分,通常范围 [-3,3]

如您所见,仅通过 VDW 变换消除了偏度(右尾)。

在此处输入图像描述