修复了回归器的阴谋和与可交换性的联系

机器算法验证 回归 指定错误 可交换性
2022-04-08 03:58:47

在简单回归模型中,回归量被视为固定而不是随机的。选择回归变量的实验值的人,决定包含每个值的频率。这可以同等加权(即 10 个 20mg 药物样品、10 个 30mg 药物样品、10 个 0mg 安慰剂样品)或以其他方式。

一旦模型建立并确定了系数,当涉及到使用模型时,使用不同频率的值运行模型是不合逻辑的。使用最初在实验中不存在的值将更加成问题。

此外假设Xs是固定的需要以下分布:

一世ñ(βX一世,σ)

现在如果我们考虑随机序列

1,2,...,n

在我看来,它不是一个没有随机的可交换序列X索引它们。每个一世有不同的意思。因此,推论没有收敛到有意义的东西。β^发现的值隐含地与设计者选择的值的频率相关联。改变频率会改变β^. 与随机预测器情况的不同之处在于,在随机情况下,我们承认存在分布,在估计期间我们不会弄乱它,并且为了进行预测而将其保留到未来并且在平均预测误差方面感到舒适。在固定的情况下,没有什么可以说未来使用的频率。

另一个有趣的方面是β^关于设计频率潜入交叉验证程序。如果我们不能假设收敛到相同,如何安全地将设计矩阵拆分为折叠?β^在每个折叠的限制?如果我们认为它是固定的,我们根本无法从设计矩阵中采样。同样的论点适用于各种重采样过程。

此外,fixed-X 模型实际上并不包含将来的占位符X值,即一世F一世(是的一世). 我们很幸运,固定 X 和随机 X 推理在正确的规范下是一致的,因此我们可以滥用符号,就好像我们有一个占位符一样。

出于这个原因,我得出结论,也许是无知的,要么不存在固定回归量(因此这是一个科学阴谋),要么有一种不同的方式来看待它以使其合理化。

编辑

https://economics.mit.edu/files/11856

在第 3 节中,讨论了这种情况。看来问题是在错误的规范下出现的。但是当我们手头有任何数据集时,这几乎总是正确的。没有人知道真相。

文献中没有引起注意的一点是,在一般错误指定的情况下,随机与固定回归量的区别对推理的影响不会随着样本量而消失。

…………

解决问题的一种方法是根据人们可以采取的不同重复抽样观点。我们可以考虑最小二乘估计量在重复样本上的分布,我们重新绘制 Xi 和 Yi 对(随机回归量情况),或者我们可以考虑重复样本上的分布,其中我们保持 Xi 的值固定并且只重新绘制 Yi (固定回归量情况)。在一般错误指定下,这两个分布的均值和方差都会不同。

如果有人可以将可交换性论点与解释联系起来,我将不胜感激,如果它有优点的话。它甚至如何在正确指定的固定 X 情况下工作,基本证明在每本教科书中[β^]=β,但我们只是走运了吗?

1个回答
  1. 回归模型给出以预测值为条件的响应预测;因此,将适合一组通过设计固定的预测值的模型应用于另一组预测值是没有问题的,即使后者是从总体中随机抽样的。带有实验设计矩阵X, 预测响应的期望和方差是的^对于(新)预测向量X

    是的^|X=Xβ
    变量是的^|X=σ2(1+X(XX)-1X)
    在哪里β是系数向量 &σ2是误差方差——因此用于拟合的特定预测变量值不会影响预测的期望值,但会影响其在整个预测变量空间中的精度变化。请注意,任何聚合拟合指标,例如预测的均方根误差,都不会从实验延续到新样本。

  2. 上述讨论假设模型是正确的:在实践中,应用它时会有额外的统计考虑。您需要考虑例如原始实验中未研究的影响的变化、外推到预测空间新区域的可靠性、总体中的选择偏差以及实验操作是否与自然原因相当。工程师可能会根据实验数据将电阻率建模为温度的线性函数,并有信心将模型应用于电路板中使用的特定电阻器集合。您示例中的医学研究人员可能会断言该药物可降低血液中的胆固醇水平,并自信地预测进一步实验的结果;但不太可能声称,在来自所有住院病人的随机样本中,