是否有用于规范化某些数据的特定名称,使其具有 mean=0 和 sd=1?
还是我只是说“数据被标准化为均值=0和sd=1”?
是否有用于规范化某些数据的特定名称,使其具有 mean=0 和 sd=1?
还是我只是说“数据被标准化为均值=0和sd=1”?
数量是一个标准分数。因此,标准化是一种常用的引用方式。
我认为它只是称为z-score。
[ @ttnphns备注:这是正确的,但是“z-score”在统计中也有其他含义。
z 标准化,z 标准值 - 可能是线性变换到均值 0 和 sd 1 的最广泛使用的术语]
正如 ars 的回答所述,标准化是涉及以下内容的转换:
标准化的一般化是白化或球形化,其中一组一个或多个变量被线性变换(通常在均值中心之后),因此协方差矩阵是单位矩阵。一个很好的参考是:
A. Kessy、A. Lewin 和 K. Strimmer,“最佳美白和去相关”,统计,第 1 期。五月,页。2015 年 12 月 12 日。
你不得不说它是“均值零标准化”。除以原始计算的标准差,,导致标准偏差为 1 的标准化变量。它的平均值为零,因为它是“居中”的(也减去了平均值)。它也不是归一化,因为归一化意味着特征(变量)的最终范围是 [0,1],而均值零标准化特征的范围是从计算的最小值和最大值确定的,即 range= []。您还可以计算百分位数,这是一种归一化,因为最终范围是 [0,1]。
需要注意的是,均值零标准化和归一化不会消除偏度,因此如果原始特征的直方图(转换前)具有较重的左尾或右尾,则尾仍将保留在转换后的特征中。要在变换后摆脱尾巴,您必须使用范德瓦尔登分数(VDW)。
单个观察的范德瓦尔登 (VDW) 分数仅仅是观察百分位值的逆累积(标准)正态映射。例如,假设你有对于连续变量的观察,您可以使用以下方法确定 VDW 分数:
例如,如果您插入一个值 0.025,你会得到. 插件值也是如此, 你会得到.
VDW 分数的使用在遗传学中非常流行,其中许多变量被转换为 VDW 分数,然后输入到分析中。使用 VDW 分数的优点是可以从数据中消除偏度和异常值影响,如果目标是在正态性约束下执行分析,则可以使用它——并且每个变量都需要是纯标准正态分布,没有偏度或异常值。
下面是基于参数 ln() =6,GSD 为 0.3,具有相应的变换:
如您所见,仅通过 VDW 变换消除了偏度(右尾)。