在简单回归模型中,回归量被视为固定而不是随机的。选择回归变量的实验值的人,决定包含每个值的频率。这可以同等加权(即 10 个 20mg 药物样品、10 个 30mg 药物样品、10 个 0mg 安慰剂样品)或以其他方式。
一旦模型建立并确定了系数,当涉及到使用模型时,使用不同频率的值运行模型是不合逻辑的。使用最初在实验中不存在的值将更加成问题。
此外假设是固定的需要以下分布:
现在如果我们考虑随机序列
在我看来,它不是一个没有随机的可交换序列索引它们。每个有不同的意思。因此,推论没有收敛到有意义的东西。发现的值隐含地与设计者选择的值的频率相关联。改变频率会改变. 与随机预测器情况的不同之处在于,在随机情况下,我们承认存在分布,在估计期间我们不会弄乱它,并且为了进行预测而将其保留到未来并且在平均预测误差方面感到舒适。在固定的情况下,没有什么可以说未来使用的频率。
另一个有趣的方面是关于设计频率潜入交叉验证程序。如果我们不能假设收敛到相同,如何安全地将设计矩阵拆分为折叠?在每个折叠的限制?如果我们认为它是固定的,我们根本无法从设计矩阵中采样。同样的论点适用于各种重采样过程。
此外,fixed-X 模型实际上并不包含将来的占位符值,即. 我们很幸运,固定 X 和随机 X 推理在正确的规范下是一致的,因此我们可以滥用符号,就好像我们有一个占位符一样。
出于这个原因,我得出结论,也许是无知的,要么不存在固定回归量(因此这是一个科学阴谋),要么有一种不同的方式来看待它以使其合理化。
编辑
https://economics.mit.edu/files/11856
在第 3 节中,讨论了这种情况。看来问题是在错误的规范下出现的。但是当我们手头有任何数据集时,这几乎总是正确的。没有人知道真相。
文献中没有引起注意的一点是,在一般错误指定的情况下,随机与固定回归量的区别对推理的影响不会随着样本量而消失。
…………
解决问题的一种方法是根据人们可以采取的不同重复抽样观点。我们可以考虑最小二乘估计量在重复样本上的分布,我们重新绘制 Xi 和 Yi 对(随机回归量情况),或者我们可以考虑重复样本上的分布,其中我们保持 Xi 的值固定并且只重新绘制 Yi (固定回归量情况)。在一般错误指定下,这两个分布的均值和方差都会不同。
如果有人可以将可交换性论点与解释联系起来,我将不胜感激,如果它有优点的话。它甚至如何在正确指定的固定 X 情况下工作,基本证明在每本教科书中,但我们只是走运了吗?