我正在查看逻辑回归模型的结果(我没有数据),并且开发该模型的人在模型中包含了二次项。
我了解在线性模型中使用此类多项式项,可以查看响应和预测变量之间的关系。但在二元结果的情况下,有没有办法事先识别这种趋势,即不将其包含在模型中,然后检查变量是否显着?
我正在查看逻辑回归模型的结果(我没有数据),并且开发该模型的人在模型中包含了二次项。
我了解在线性模型中使用此类多项式项,可以查看响应和预测变量之间的关系。但在二元结果的情况下,有没有办法事先识别这种趋势,即不将其包含在模型中,然后检查变量是否显着?
在基于一般线性模型构建模型后(当您有二元结果时通常会这样做),您有几种方法可用于检查是否违反支持统计有效性的假设。当预测关系为多项式时,将违反的假设是残差的线性(或等效地,拟合尺度上的预测与预测变量,在二元结果的情况下为逻辑)。详细信息将根据您的计算平台而有所不同,但您应该考虑残差(或拟合值)与预测图。需要多项式的测试将是“眼球”驱动的。如果你得到“微笑”或“皱眉”,那么平方项可能是合适的。如果你得到一个负加负加类型的模式,那么可能需要一个更高阶的多项式。在这个模型构建过程中,您应该考虑潜在的科学含义。三次多项式应该有更高程度的怀疑。您需要平衡适合程度与复杂性。另一种方法是使用允许自动惩罚的回归样条。Frank Harrell 的“回归建模策略”有许多使用 S/R 平台的工作示例。
在 EDA 期间,您可以采用(连续)预测器并通过创建大小相等或等间距的 bin 对其进行离散化。然后,您可以绘制所有 bin 的事件率,以直观地检测线性或二次关系(如果存在)。例如,倒 U 形曲线表明存在二次关系。创建此类分箱的另一种方法是使用 CHAID(或其他)决策树算法将您的样本拆分为统计派生的分箱。