是否有关于逻辑回归误差的任何特定假设,例如误差项的恒定方差和残差的正态性?
通常,当您的点的库克距离大于 4/n 时,您会删除它们吗?如果您确实删除了它们,您如何判断删除点的模型是否更好?
逻辑回归的残差和库克距离
我不知道我是否可以给你一个完整的答案,但我可以给你一些可能有帮助的想法。首先,所有统计模型/测试都有假设。然而,逻辑回归非常不假设残差是正态分布的,也不假设方差是恒定的。相反,假设数据分布为二项式,也就是说,伯努利试验的数量等于该精确集合的观察数量协变量值以及与该组协变量值相关联的概率。请记住,二项式的方差是。因此,如果的在协变量的不同级别上有所不同,方差也会有所不同。此外,如果任何协变量都与响应变量相关,那么概率会发生变化,因此方差也会发生变化。这些是关于逻辑回归的重要事实。
其次,模型比较通常在具有不同规格的模型之间进行(例如,包括不同的协变量集),而不是在不同的数据子集上进行。老实说,我不确定如何正确地做到这一点。使用线性模型,您可以查看 2以了解在排除异常数据的情况下拟合有多好,但这只是描述性的,您应该知道必须上升。但是,对于逻辑回归,不能使用有各种'伪s' 已被开发用于提供类似的信息,但它们通常被认为是有缺陷的并且不经常使用。的概述,请参见此处。有关它们的一些讨论和批评,请参见此处。另一种可能性可能是在包含和不包含异常值的情况下对 beta 进行折刀,以查看排除它们如何有助于稳定它们的采样分布。再一次,这只是描述性的(即,它不会构成一个测试来告诉你更喜欢哪个模型——呃,你的数据的子集)并且方差必须下降。这些事情都是真的,对于伪s 和折刀分布,因为您选择要排除的数据是基于它们显得极端的事实。
1) 是否有关于逻辑回归误差的任何特定假设,例如误差项的恒定方差和残差的正态性?
逻辑回归模型没有传统意义上的“错误”。它既违反直觉,又在方法上不一致。模型输出是拟合概率或风险,而观察到的结果是 0/1 事件指标。从方法论上讲,您往往会低估拟合概率非常高或非常低的域(对剩余距离的贡献非常小),而模型拟合算法对这些区域的重要性要高得多。平方距离通常是校准逻辑回归模型的不好方法。
另一种拟合优度检验是 Hosmer-Lemeshow 检验,其中拟合值用于根据拟合风险的十分位数创建分箱分区。您可以在 Alan Agresti 的 Categorical Data Analysis 或 Hosmer 和 Lemeshow 的 Logistic Regression 一书中阅读有关此测试的信息。另一个过程是使用 Studentized Residuals,其中均值方差关系用于通过拟合的逆方差重新加权残差。对于逻辑回归,这是
2) 通常当你的点的库克距离大于 4/n 时,你会删除它们吗?如果您确实删除了它们,您如何判断删除点的模型是否更好?
我从不根据敏感性分析删除分数。如果我对 100 个人及其收入进行随机抽样,其中 1 人恰好是亿万富翁,那么我最安全的假设是,该亿万富翁代表人口的 1/100。
我总体上同意 AdamO 的上述评论——假设 1 位亿万富翁代表 1/100 的人口完全没问题。但是,如果第 1 位亿万富翁的存在严重扭曲了数据,以至于其他 99 人的预测受到影响,我将删除第 1 位亿万富翁。我宁愿错误地预测异常值而不是其他人。
话虽如此,如果您使用 Cook 的 D 值(即任何 > 4/df)删除数据点,那么您可以使用两个模型的 ROC 曲线下面积来检查改进。