我可以将这种数据模式视为线性并使用参数多元线性回归吗?

数据挖掘 数据挖掘
2022-02-14 19:29:55

在数据中,有 355 个观测值,包括 1 个连续因变量(Y:范围为 15-55)和 12 个自变量(连续、分类和有序)。X1(2 个水平)和 X6(3 个水平)被视为分类变量。以下是我的一些问题:

  1. 我可以假设所有系数(除了 X1 和 X6 是分类的)相对于 Y 是线性的吗?

  2. 我可以将 X5 视为连续变量吗?但是,它是序数,范围为 (1-7)?

  3. 我可以将 X7(年)作为连续变量吗?但是,它是有序的,并且从 2002 年到 2006 年(事实上,数据年本身并没有改善响应;正是在同一时间段内发生的其他因素导致了改善,我们不知道这些因素),这种方法看起来合乎逻辑吗?

  4. 一般来说,如果我对自变量(例如对数、平方、平方根和逆)使用不同的变换,我是否还需要对数据进行标准化?

这是散点图:

在此处输入图像描述

任何反馈和见解将不胜感激。谢谢

3个回答

我不认为“可以”是正确的问题。它不会给你一个语法错误。正确的问题是“会出什么问题?”。任何建模技术都会有可能被打破的假设,并且了解这些假设如何影响结果将帮助您知道要寻找什么(以及当这些假设被打破时要注意多少)。

  1. 线性是否合适的最佳测试是残差是白色的还是结构化的。例如,看起来 X9 可能与 Y 存在非线性关系。但这可能是 X9 与其他变量(尤其是分类变量)之间相互作用的产物。拟合您的完整模型,然后针对 X9 绘制残差并查看它的样子。

  2. 将其视为连续不会导致严重的问题,但您可能需要考虑这意味着什么。1 和 2 的关系是否与 2 和 4 的关系方向相同,强度只有一半?如果不是,您可能希望将其转换为您认为差异是线性的比例

  3. 与 2 相同,但将时间视为线性更为合理。

  4. 大多数线性回归技术不需要标准化,因为它们包含自己的标准化。主要的例外是使用正则化的技术,其中参数的规模是相关的。

还值得指出的是,多元线性关系虽然可以很好地捕捉一般趋势,但在捕捉逻辑趋势方面却很差。例如,查看 X3 和 X4,很可能存在 Y>X3 和 Y>X4 之类的规则,线性回归暗示但没有捕捉到这些规则。

谢谢马修。我有一个困惑,你的意思是我们将通过多元线性回归方法建立模型,然后将检查残差与重要因素,看看它们是否是无结构的。我们不应该首先检查变量(系数)是否与 y 成线性关系。

  1. 由于 X9 和 X5 没有统计学意义,我应该检查残差与这两个的散点图吗?

  2. 您对残差与时间的散点图有何见解,您认为它还需要任何转换吗?如果是,你能解释原因吗?

这是残差 VS 显着变量的散点图和不同的残差图 vs Y,以检查是否满足正态性假设。

在此处输入图像描述

在此处输入图像描述

请让我知道您的反馈。另一方面,你能否解释一下你最后一段的意思(注意 X3 和 X4 都具有统计意义)?再次感谢你。

事实上,我使用加法计算 X3 值(X3 是 21 个二进制变量的和)和乘法计算 X4(X4 是 3 个连续变量的乘积)。我想知道这些信息是否会改变我的计算方式。

这是残差图与 X7、X5 和 X9 以及 X7(时间或年份)的残差概率图。可以发现,X7 在每个时间范围内的残差都是正常的。

在此处输入图像描述

在此处输入图像描述

但是,我仍然对这一点感到困惑,您的意思是我们将通过多元线性回归构建模型,然后将检查残差与显着或非显着因素,以查看它们是否无结构并遵循正态分布。我们不应该首先检查变量(系数)是否与 y 成线性关系。

感谢您的反馈意见。