最近我一直在使用逻辑回归构建模型。令我惊讶的是,LIFT 图表在验证数据上看起来比在训练数据上更好,ROC 也是如此。模型中的所有变量都具有统计显着性。
问题是:这真的是一个严重的问题吗?如果是这样,有什么方法可以检测是什么原因造成的?这个问题有名字吗?
我试图通过在没有单个变量的情况下构建所有可能的模型来解决它,但问题仍然出现在每个模型中。
附加信息
样本大小约为20000,比例为:训练70%,验证30%,我眼前没有结果,但我记得训练数据中第二个百分点的提升约为8在验证中约为 9,先验为 4.2%。