与使用哪种转换有关的困惑

机器算法验证 数据挖掘 数据转换
2022-03-18 21:32:24

我对在我的数据中使用哪种转换感到困惑。我的原始数据的直方图看起来像这样

在此处输入图像描述

现在,我在大多数地方都看到了进行对数转换,以防数据出现正偏斜。但是当我进行对数转换时,我会得到这样的东西,它是负偏的,而不是我想要的。

在此处输入图像描述

如果我进行平方根变换和立方根变换,我会得到这样的

在此处输入图像描述 在此处输入图像描述

现在数据非常接近正常。但我没有得到这背后的直觉。当我在很多地方看到人们提到日志转换在数据正向倾斜时有用时,为什么它不能与日志转换一起使用。这里平方根和立方根有效。

我想知道在什么条件下我们应该使用对数变换以及在什么条件下使用立方根变换。建议?

1个回答

从你的问题中不清楚为什么你需要转型。(你想达到什么目的,为什么?)

至于为什么在某些情况下日志可能会使外观更加对称,而不是其他情况,并非所有分布都是相同的 - 虽然日志转换有时可能会使倾斜数据接近对称,但不能保证它总是如此。

通常其他转换会做得更好。

例如,日志在对数正态分布上工作得非常好,而立方根在 gamma 上做得更好。下面,是从对数正态分布模拟的,是从伽马分布模拟的。它们看起来有点相似,但是对数变换使对称(实际上,正常),同时使左偏。另一方面,立方根变换留下仍然有些右偏,但使非常接近对称(并且非常接近正常):ababab

对数与立方根,对数正态与伽玛

其他时候根本没有单调变换来实现近似对称(例如,如果你的分布是离散的并且足够倾斜,比如几何(0.5),或者说泊松(0.5),没有单调变换可以使它合理正常 - 无论你把它们放在哪里,最左边的尖峰总是比下一个高)。

顺便说一句,您可能希望在直方图上使用更多条形图,并且可能还考虑使用其他显示,以掌握分布形状。看我的警示故事