数据挖掘 - 为什么使目标变量正态分布有帮助？ - 吾爱随笔录

数据挖掘回归熊猫特征工程正常化特征缩放

2022-02-26 15:30:24

在处理一些回归问题时，我发现如果目标变量是倾斜的，则使其呈正态分布（使用转换）几乎总是有帮助的。这是为什么？

我们是否也应该将自变量转换为接近正态分布？

2个回答

在某些情况下，它实际上可能有助于获得更好的结果（取决于模型类型），但改进也可能来自性能指标的计算方式不同这一事实。例如，由于案例位于分布的另一侧，偏斜分布将导致高 MSE 值，而如果将数据转换为正态分布，则 MSE 会受到限制。因此，在比较案例时，请确保评估反向转换目标的性能。

由于高斯随机变量的基本假设，模型在正态分布目标上实际表现更好的情况包括高斯过程回归等。应该有相当多的其他模型类型以某种方式具有相似的假设，因此在转换后的数据中表现更好。

为了避免编写诸如确保满足假设之类的事情，例如线性回归和残差，我还喜欢以以下方式考虑它（例如，类似于二元分类中的类平衡）：

如果您对数据进行分类，即更偏斜的部分是一个 bin 而另一个 bin 是另一个 bin，那么偏斜的部分是另一个 bin，而不是不平衡目标问题，那么应该解决这个问题。（对于初学者来说，第 1 类的样本不足以让算法学习一些东西）

其它你可能感兴趣的问题