数据挖掘 - 如何测量 ML 任务中协变量的信息？ - 吾爱随笔录

背景

最近，我做了 2 个不同的 ML 项目。

一个是借贷俱乐部贷款预测，另一个是在线实验领域的个人数据集，用于预测客户是否会接受治疗。

这两个任务都是具有 100+M 观察和一百个协变量的二元分类。但是，我的借贷俱乐部模型的PR-ROC（0.86）非常高，这说明模型的性能很好。我的在线实验模型受到影响，只有 0.03 PR-AUC。该模型是无用的。

我试图向我的领导解释数据集信息量太少，这就是我的项目失败的真正原因。我使用低度量分数（PR-AUC = 0.03）和高损失函数值作为证明来证明我构建的模型是无用的。

问题

后来，我遇到了一个问题，无论我们构建的模型如何，我们如何衡量协变量中包含的信息？

如果我们使用线性模型执行回归任务，我们可以使用RMSE, AIC,BIC来选择一个模型，选择最能挖掘协变量的最佳模型。如果我们像以前一样执行二进制分类 ML 任务，我们可以使用F1,ROC和PR-ROC指标等。我认为这些指标有助于我们比较模型性能而不是潜在的数据质量。

我想要的解决方案类似于entropy。例如，我们可以计算 2 个概率分布之间或协变量和目标标签之间的熵。熵向我们展示了协变量和标签之间的关系强度。有没有更好的解决方案来衡量协变量中包含的信息？

我是统计学的毕业生，如果你们能提供任何学习资源，非常感谢！