目标变量的标准化和异常值是连续的

数据挖掘 数据清理
2022-02-24 00:01:39

我怀疑我是否应该对连续的目标变量进行异常值分析和归一化?

1个回答

您应该对目标变量进行异常值分析,以便为模型准备训练数据。大多数模型在无噪声数据上的表现会更好,因为异常值可能会使模型的结果偏向一个方向。

一般来说,不需要为了模型性能或准确性对目标变量进行归一化。(尽管对目标变量进行一些分析以从中获得一些有用的业务见解可能很有用)

对输入变量执行归一化的原因如下:
1) 特征缩放提高了最速下降算法的收敛性
2) 有助于避免多个变量在幅度上支配其他变量的情况

而如果您对目标变量进行归一化,它反过来也会对 MSE 进行归一化,并且不会对结果产生影响。

您可能选择对目标变量进行标准化的情况:

  1. 神经网络根据成本函数通过反向传播产生的误差来更新节点的权重,较大的误差可能会导致权重发生剧烈变化,并使学习过程不稳定。哪个优化器可能无法确定 Optimal Minima 的结果。

  2. 您可能想要规范化目标的唯一时间是浮点溢出的情况。有时数字太大或太小以至于 CPU 内存无法处理它,并且会变成 INF 或环绕到另一个极端表示。