如果这个问题没有多大意义并且太长,我们深表歉意。我在大学接受了一些基本的统计培训,但是我的知识上有很多空白,我一直在努力填补,但是在模型选择方面我一直有些混乱,特别是在这个关于如何在一系列逻辑回归模型之间进行选择以及非预测逻辑回归模型是否需要交叉验证的案例。
这些模型基于推断与三年期间针对某一专业从业者的投诉结果最密切相关的变量。
- 理想情况下,我想选择一个相对简约的模型,该模型最适合该时间段内的数据。
- 该模型不会用于对未来结果进行预测,而是用于推断该时间段内的决策。
我一直在选择一个考虑 AIC 和 BIC 分数的模型。我读到基于 AIC 分数判断模型最适合使用这些模型进行预测,而 BIC 分数更适合根据用于拟合模型的数据选择“更真实”的模型。我以为我已经基于这种方法开发了一个相对较好的模型,但现在不太确定。
我的主管使用逐步选择运行了另一个模型,因为以前的研究就是这样做的。与我开发的模型相比,生成的模型的 BIC 得分相对较低,AIC 得分相对较高,但在它包含的一些自变量方面却大不相同。我读过逐步选择不是选择模型的好方法,如果可能的话,我不想整体采用这种方法。但是,我现在觉得我需要进一步证明我制作的模型的合理性,并且不完全确定如何做到这一点。
此外,考虑到在比较我的主管开发的逐步模型和我提出的模型时,模型中重要性较小的自变量(基于较高的 p 值)有多么不同,我认为可能有很多BIC 分数相对较低的模型,我不确定如何在它们之间进行选择。
我的主管还为他的模型(Cox-Snell 和 Nagelkerke)制作了一些伪 R 平方度量,我将这些与我制作的模型进行了比较,但对此没有总体结论。他们在分数上都非常相似。我不完全确定比较基于伪 R 平方度量的模型是否是一个好主意,从我读过的内容来看,它似乎不是。
我对交叉验证的工作原理以及它如何通过从训练集中保留测试集来验证预测模型有一些了解。但是,我不完全确定非预测模型是否需要此过程,以及如果我开发的模型不用于预测目的,在它们之间进行选择是否有用。
所以,基本上,我有几个问题:
- 交叉验证在不用于进行预测的推理模型之间进行选择是否有用?
- 如果逐步回归产生的模型的 BIC 分数与其他模型相比相对较低,那么尽管存在逐步回归的所有缺点,它是否是一个有用的模型?
- 使用伪 R 平方分数比较来自同一数据集的模型是个坏主意吗?
- 在不用于预测的相互竞争的回归模型之间,您会采取什么方法进行选择?
希望这是有道理的。任何帮助将不胜感激。
编辑:详细地说,只有 1000 多个案例和大约 50 个虚拟变量可供选择,其中大多数变量似乎微不足道。每个模型中都会出现两个变量,然后大约 10-15 个其他变量可能有助于改进模型。AIC 最低的模型有 11 个自变量,BIC 最低的模型有 9 个自变量。所有变量都是分类的。
我希望使用更简洁的模型,因为我认为在进行推断而不是预测时,它有助于表示数据生成过程的更稳定表示,并且在尝试向非研究人员解释时,模型不那么臃肿,但我不确定这是否正确。我不确定如何准确地表达该模型在理想情况下的简约程度。我想我以前被教导过分依赖 p 值,不应该过多考虑变量的统计意义。理想情况下,我希望模型中变量的系数在模型之间保持相对稳定,并可能改进模型拟合。
我想我正在逐渐发现所有这一切所涉及的不确定性以及它如何既是一门艺术又是一门科学。