背景
最近,我做了 2 个不同的 ML 项目。
一个是借贷俱乐部贷款预测,另一个是在线实验领域的个人数据集,用于预测客户是否会接受治疗。
这两个任务都是具有 100+M 观察和一百个协变量的二元分类。但是,我的借贷俱乐部模型的PR-ROC(0.86)非常高,这说明模型的性能很好。我的在线实验模型受到影响,只有 0.03 PR-AUC。该模型是无用的。
我试图向我的领导解释数据集信息量太少,这就是我的项目失败的真正原因。我使用低度量分数(PR-AUC = 0.03)和高损失函数值作为证明来证明我构建的模型是无用的。
问题
后来,我遇到了一个问题,无论我们构建的模型如何,我们如何衡量协变量中包含的信息?
如果我们使用线性模型执行回归任务,我们可以使用RMSE, AIC,BIC来选择一个模型,选择最能挖掘协变量的最佳模型。如果我们像以前一样执行二进制分类 ML 任务,我们可以使用F1,ROC和PR-ROC指标等。我认为这些指标有助于我们比较模型性能而不是潜在的数据质量。
我想要的解决方案类似于entropy。例如,我们可以计算 2 个概率分布之间或协变量和目标标签之间的熵。熵向我们展示了协变量和标签之间的关系强度。有没有更好的解决方案来衡量协变量中包含的信息?
我是统计学的毕业生,如果你们能提供任何学习资源,非常感谢!