我有一个包含 1747 个观察值的数据集。结果变量是分类变量,而自变量是连续变量,因此我决定使用逻辑回归进行分析。我使用反向消除算法构建了模型,得到的模型似乎很稳定。检查 VIF 值提供了非常好的结果,小于 5% 的残差很大,DFBeta 值小于 1。但是,76 个案例被确定为大杠杆值(其中只有一个也是大残差)。当我删除这些案例时,结果会有所不同。
处理这些值的最佳方法是什么?
我有一个包含 1747 个观察值的数据集。结果变量是分类变量,而自变量是连续变量,因此我决定使用逻辑回归进行分析。我使用反向消除算法构建了模型,得到的模型似乎很稳定。检查 VIF 值提供了非常好的结果,小于 5% 的残差很大,DFBeta 值小于 1。但是,76 个案例被确定为大杠杆值(其中只有一个也是大残差)。当我删除这些案例时,结果会有所不同。
处理这些值的最佳方法是什么?
我要强调的是,在没有明确定义的分析计划或协议来处理这些值的情况下,答案是:你把它们留在里面。你报告纯正的结果作为主要分析:其中 p-价值被视为回答主要问题。如果讨论排除高杠杆点的结果是必要且具有指导意义的,则这被认为是次要或事后分析,并且证据的权重要小得多,更多的是“假设产生”结果而不是“假设确认”一。
不排除这些值的原因是因为您损害了结果的解释和分析的再现性。当您做出关于哪些值值得保留和不值得保留的临时决定时,您不能相信另一位统计学家也会这样做。丢弃观察结果的做法是非常糟糕的科学。这样做,您实际上修改了您的假设(因为您对人口的定义与最初陈述的不同),并且新的“人口”自相矛盾地由您所观察到的定义。因此,p 值并不意味着人们认为它意味着什么,并且在某种程度上是一个伪造的结果。
这对诊断统计的作用提出了质疑。这听起来像是我在提倡永远不要使用它们。情况恰恰相反。只有在有助于理解模型中的固有假设的情况下,运行诊断才是好的。正如 Box 所说,“所有模型都是错误的,有些模型是有用的。” 即使是非线性趋势,有时线性关系也足够接近,可以为我们提供值得指导决策的“经验法则”。以出生时铅暴露与成年智商之间的关系为例. 很少,如果有的话,儿童的铅接触量为 0。几乎我们所有人都被暴露在这样的环境中,以至于我们的智商已经大大低于原本可以达到的水平。当以这种方式对个体进行抽样时,您几乎肯定会发现一个或多个具有低铅暴露量和高智商的高影响力个体。想想当这些人在主要分析中被排除或维持的情况下最终测试的假设的差异。
当诊断表明有问题的观察结果时,您需要解决许多问题:
亚组内是否存在未知的变异或协变来源?例如,相关 btn 家庭成员或由设备校准不佳的签约实验室进行的一波实验室检测?
平均模型是否大致成立?通过使用更灵活的建模方法(例如平滑样条曲线或更高阶的多项式效应)是否更准确地检验了假设?
是否充分考虑了方差加权?在 LS 建模中,这意味着标准误差是根据同方差数据计算的,或者使用稳健的标准误差。GLM 根据结果的概率模型自动重新加权此类数据。在那种情况下,概率模型是否正确?