在Frank Harrell的Regression Modeling Strategies的第 4.1 节中,如果我理解正确,不建议使用数据来决定如何在回归模型中表示预测变量(即决定预测变量的复杂性和节点在样条曲线中的位置) ),因为它可以产生一个充分拟合的模型,并且拟合优度的所有统计测量都好得令人难以置信。
据说:
原因是在计算标准误差、P 值和
- 我真的不明白上述统计数据计算中的“幻影df”从何而来?以及如何预先指定预测器复杂性而不是使用引导、交叉验证来解决这个问题?
- 使用主题已知知识预先指定预测器复杂性如何保证模型?有时,知识是从以前的数据驱动模型的复杂性中获得的,并且通常没有任何手段来验证其“知识”的准确性。
- 使用数据来决定要组合分类预测变量中的哪些级别是否有效?(例如,具有或多或少相同系数和置信区间的水平)
我的理解肯定有问题,但我无法弄清楚它是什么。