在数据中,有 355 个观测值,包括 1 个连续因变量(Y:范围为 15-55)和 12 个自变量(连续、分类和有序)。X1(2 个水平)和 X6(3 个水平)被视为分类变量。以下是我的一些问题:
我可以假设所有系数(除了 X1 和 X6 是分类的)相对于 Y 是线性的吗?
我可以将 X5 视为连续变量吗?但是,它是序数,范围为 (1-7)?
我可以将 X7(年)作为连续变量吗?但是,它是有序的,并且从 2002 年到 2006 年(事实上,数据年本身并没有改善响应;正是在同一时间段内发生的其他因素导致了改善,我们不知道这些因素),这种方法看起来合乎逻辑吗?
一般来说,如果我对自变量(例如对数、平方、平方根和逆)使用不同的变换,我是否还需要对数据进行标准化?
这是散点图:
任何反馈和见解将不胜感激。谢谢




