关于何时使用最小二乘回归分析的困惑

机器算法验证 回归 交叉验证 最小二乘 非线性回归 测量误差
2022-04-21 03:35:22

我正在阅读一篇题为《地球科学中回归的误用》的文章。

在第 65 页,作者对最小二乘法进行了如下说明。

通常要求自变量已知且没有错误,但为了预测,如果两个变量都有错误,则应使用回归方程。

然后在下一节中,作者对功能分析进行如下说明。

估计数据背后最可能的关系构成了另一个问题,如果两个变量都存在误差,则必须进行不同的分析,因为将所有剩余方差都归因于因变量的变化不再合适。

在我看来,作者建议当两个变量都出错时应该使用这两种方法。我错过了什么吗?

2个回答

只是为了澄清 DL Rogers 的回答中的一些观点。OLS 回归估计条件分布的均值E(y|x). 显然,在预测问题中,这就是我们想要的:给定x并想预测y. 由于x是假设的,可以假设它没有错误。在预测中,我们说,“假设X=x...现在我最好的猜测是什么y?”

有很多情况X可以合理地假设没有错误。类别的虚拟变量就是一个例子。另一个重要的类是X值是来自实验的设计值。此外,当 IV 是空间或时间时,我们知道我们在哪里以及何时。在实际水平上,如果响应的变化比 IV 的误差大几个数量级,我们可以放心地忽略后者。

如果 IV 中的误差与响应中的误差相当,并且我们对未观察到的构造之间的相关性(或斜率参数)感兴趣,则会出现问题。标准回归参数高估了真实斜率的大小,因此如果您在应该使用测量误差模型时使用 OLS 值,您将高估感兴趣的构造之间的相关强度。这会很糟糕。

您引用的论文在付费墙后面,所以我无法看,但从摘要来看,作者似乎正在尝试某种测量误差模型。不同的作者使用“功能数据分析”这个短语来引用各种不同的方法,所以我不确定这篇论文到底在做什么。对于它的价值,在 Ramsay 和 Silverman 的功能数据分析中,假设 IV 是已知的且没有错误。

我认为你引用的两个部分不能直接比较。一些背景知识:在 OLS 回归中,过程的假设(如该文章的作者所指出的,其用户并不总是考虑这些假设)包括对自变量进行完美测量的要求——即,零测量误差。与正式统计模型中的许多条件一样,这种条件在任何许多真实数据情况下都不可能满足(不是_any_...谢谢,glen_b)。然而——就像许多统计问题一样——不满足这个条件通常被认为(专家)对数据分析几乎没有负面影响。实际上,IV 和 DV 的测量误差可能在模型的整体“拟合不良”(“残差”及其许多相关统计数据)中表示。

尽管如此,我认为作者的意思是,在许多情况下,未能考虑到所有变量(即 IVs)中测量误差的现实可能是有问题的。我认为这就是为什么有一系列模型包括 IV 中测量误差的估计。我认为结构方程建模也是如此,因为 SEM 中的大多数变量都有与之相关的误差项。

最后试图直接回答您的问题:第一句话是说,在 OLS 回归中,我们假设 IV 是在没有测量误差的情况下测量的,这显然是不可能的,但是(我认为它是说)在使用 OLS 进行预测时是可以的。第二个引用似乎有所不同:部分描述了功能分析所需的任务(可能,因为这就是文章的内容)。在第二个引文中,作者解释了建模的困难,当模型中的残差(即误差)方差必须准确地识别为来自 IV 或来自 DV,而不是(如在 OLS 中)只是假设它一切都来自DV。这与您的问题上下文中的第一个引用没有直接关系。

...当两个变量都出错时,应使用这两种方法。

所有被测量的变量总是有测量误差,所以这种说法可能是基于您对某些问题的误解。相反,作者似乎在说(在第一个引文中)正是文章摘要中的内容:OLS 不适用于地球科学,除非在预测情况下。第二个引用与您的问题没有直接关系,因为它是对作者喜欢的替代方法的一部分的描述。