逻辑回归在验证数据上表现更好

机器算法验证 物流 验证
2022-04-09 23:33:36

最近我一直在使用逻辑回归构建模型。令我惊讶的是,LIFT 图表在验证数据上看起来比在训练数据上更好,ROC 也是如此。模型中的所有变量都具有统计显着性。

问题是:这真的是一个严重的问题吗?如果是这样,有什么方法可以检测是什么原因造成的?这个问题有名字吗?

我试图通过在没有单个变量的情况下构建所有可能的模型来解决它,但问题仍然出现在每个模型中。

附加信息
样本大小约为20000,比例为:训练70%,验证30%,我眼前没有结果,但我记得训练数据中第二个百分点的提升约为8在验证中约为 9,先验为 4.2%。

2个回答

不,这不一定是问题,尤其是在样本量很小的情况下。很可能纯粹是偶然的,更多的“简单”模式在验证集中,而如果“困难”模式在训练集中则更多。如果您要反复重新采样数据以形成随机分区的训练和验证集,您会期望训练集上的平均误差低于验证集,但这并不意味着它会在每个实验的运行。

如果您的样本量很小,则表明这种可变性意味着验证集性能估计具有很高的可变性并且不是性能的可靠指标,因此您可能应该使用某种(重复)交叉验证或引导反而。

我之前也看到过这种事情,因为我一直在研究由模型选择标准的方差引起的模型选择问题。这并不一定表明模型存在问题,但确实表明数据样本太小。

如果相对类频率非常不同,那么可能是验证集的少数类示例比训练集少,这也可能影响性能估计,使用分层引导或交叉验证,保持相同的比例训练集和验证集中的正负模式。

样本量太小,无法进行单拆分验证。为了获得足够精确的估计,10 倍交叉验证的所有步骤应重复 100 次(或至少 50 次)。或者使用可能有 300 个重采样的引导程序。可以通过再进行 70-30 拆分并注意拟合模型和验证统计数据的差异来发现问题。