为什么使目标变量正态分布有帮助?

数据挖掘 回归 熊猫 特征工程 正常化 特征缩放
2022-02-26 15:30:24

在处理一些回归问题时,我发现如果目标变量是倾斜的,则使其呈正态分布(使用转换)几乎总是有帮助的。这是为什么?

我们是否也应该将自变量转换为接近正态分布?

2个回答

在某些情况下,它实际上可能有助于获得更好的结果(取决于模型类型),但改进也可能来自性能指标的计算方式不同这一事实。例如,由于案例位于分布的另一侧,偏斜分布将导致高 MSE 值,而如果将数据转换为正态分布,则 MSE 会受到限制。因此,在比较案例时,请确保评估反向转换目标的性能。

由于高斯随机变量的基本假设,模型在正态分布目标上实际表现更好的情况包括高斯过程回归等。应该有相当多的其他模型类型以某种方式具有相似的假设,因此在转换后的数据中表现更好。

为了避免编写诸如确保满足假设之类的事情,例如线性回归和残差,我还喜欢以以下方式考虑它(例如,类似于二元分类中的类平衡):

如果您对数据进行分类,即更偏斜的部分是一个 bin 而另一个 bin 是另一个 bin,那么偏斜的部分是另一个 bin,而不是不平衡目标问题,那么应该解决这个问题。(对于初学者来说,第 1 类的样本不足以让算法学习一些东西)