数据集中和数据转换的顺序

机器算法验证 回归 数据转换 定心
2022-04-09 21:42:41

编辑:我刚刚阅读了一篇相关文章(如何包含xx2回归,以及是否将它们居中?) 其中提到使变量居中会创建一个新变量。

然而,正如评论指出的那样,取负值的对数没有意义(我没有考虑清楚这一点很愚蠢)所以我改变了第一个选项。


我正在使用多元回归,其中对数转换我的一些预测变量会大大改善模型假设。但是,这种改进是针对非中心数据的,而以均值为中心的数据将更易于解释。

我知道居中数据不会影响分布(它只会改变平均值),并且想问我什么时候应该居中我的数据。有没有一般的经验法则?

1]我是否首先将预测变量集中在它的平均值上,然后搜索一个不同的转换来改进模型假设,如果它们被违反?

2]我是否先执行对数转换,然后以这些对数转换值的平均值为中心?与选项 1] 相比,这将如何改变模型解释?

2个回答

如果预测变量的对数,通常x, 是有帮助的,并且将变量集中在它们的平均值上是有帮助的,在转换之前中心化是否有帮助?

一旦你从一个变量中减去了平均值,那么现在至少有一个值是负数,并且不能(有用地)计算对数(抛开复杂的分析)。

即使你放弃了具体的建议log(x的平均值x)基于这些理由,改造的更一般的想法(x的平均值x)仍然

  1. 需要一个适用于正值、零值和负值的转换;有一些(立方根,asinh,...),但在认真考虑对数的任何情况下,它们通常不会帮助您

  2. 意味着未转换数据的平均值在某种意义上是转换尺度的自然甚至是方便的起源,我认为通常情况并非如此。因此,在我看来,您的 [1] 通常不可行。

无论如何,在呈现回归结果时,中心变量,无论是否转换;这是相同的回归,您如何解释它是一个方便的问题。因此,在您的 [2] 上,我认为它根本不会改变模型解释;您是否写关于居中的结果只是为了方便。

顺便说一句,关于使用没有“当然”log(x+1)即使x0. 这是一些人使用的临时软糖,尤其是在生物学的某些分支中。但它没有标准或公认的逻辑。

这不是一个可以直接回答的问题。有很深的问题。

如果一个变量的对数,比如 X,正在改进模型,那么 X 本身就是一个重要的变量,作为一个“级别”。例如,股票价格作为水平并不重要(当然这是有争议的),因为它们是在股票分割后重新计算的,而公司的市值或石油价格可能是一个水平。这就是为什么研究人员主要使用股票价格的价格差异或百分比变化(回报)。

另一种看待它的方法是查看数据生成过程是否静止。如果不是,那么均值居中是非常可疑的,因为您预计未来未见数据点的均值会有所不同。

当水平不重要并且变量是固定的时,您可以将变量居中。但是我个人还是不太喜欢。原因是当你计算每个变量的平均值时,你实际上是在估计平均值。当您估计某事时,这意味着存在错误(大或小)。在某些情况下,单独估计几个变量的均值的总误差可能比一起估计的要高。

然后是协整的概念。几个变量可能不是单独的固定的,但是当以某种方式组合时可能会产生固定的信号。我不知道您的数据域,但在我看来,您想要记录转换的变量作为一个级别很重要,但是您想要表示居中的事实告诉我还有其他具有相对关系的变量对这个变量的意义。也许你有协整变量。