回归中的数据引导建模有什么问题?

机器算法验证 回归 置信区间 广义线性模型 特征选择 回归策略
2022-03-20 16:40:40

Frank Harrell的Regression Modeling Strategies第 4.1 节中,如果我理解正确,不建议使用数据来决定如何在回归模型中表示预测变量(即决定预测变量的复杂性和节点在样条曲线中的位置) ),因为它可以产生一个充分拟合的模型,并且拟合优度的所有统计测量都好得令人难以置信。

据说:

原因是在计算标准误差、P 值和 Radj2

  1. 我真的不明白上述统计数据计算中的“幻影df”从何而来?以及如何预先指定预测器复杂性而不是使用引导、交叉验证来解决这个问题?
  2. 使用主题已知知识预先指定预测器复杂性如何保证模型?有时,知识是从以前的数据驱动模型的复杂性中获得的,并且通常没有任何手段来验证其“知识”的准确性。
  3. 使用数据来决定要组合分类预测变量中的哪些级别是否有效?(例如,具有或多或少相同系数和置信区间的水平)

我的理解肯定有问题,但我无法弄清楚它是什么。

2个回答

首先,除了物理学之外,没有办法“保证”任何模型。正如我的书和课程笔记中详细讨论的那样,当缺乏主题知识时,基于对“预测潜力”的适当掩蔽分析,将 df 分配给预测变量是一种安全的策略。对于分类变量,在没有任何主题知识的情况下,这可能涉及组合最不常见的类别,以便分析的类别总数比您希望用于该预测变量的 df 多一个。

有一个完美的类比可以帮助理解数据引导建模造成的危害。假设你有k组,并希望提供两个或多个组之间人口平均值差异的证据。方差分析k1如果模型假设接近正确,分子 df 提供完美的多重性调整并产生对 I 类错误的完美控制。这种方法的数据指导改变是在进行涉及少于k1df,通过组合被观察为“接近”的手段。结果测试不会接近保留类型 I 错误。这正是逐步变量选择或使用数据告诉您连续预测器使用多少个结的问题。Grambsch & O'Brien 对后一种情况进行了详细研究(使用二次拟合而不是样条),我的笔记中总结了他的优秀论文。

a) 希望标准统计测量是处理随机获得结果的可能性,并且不包括您观察数据和使用您自己的特定经验和感知的可能性。

b)Harrell 教授并没有说你不能使用引导程序,只是它的工作量太大......你必须运行多个引导程序,然后对于每个引导程序数据样本手动观察数据决定你的拟合转换,然后运行回归. 只有当您拥有完全自动化的流程时,Bootstrap 才实用。