这里是一个非常简单的问题,但似乎无法在通常很棒的 sklearn 文档中找到答案。
我正在使用二进制分类器,但我们可以假设我正在使用LogisticRegression,我想知道是否有一种通用的方法来选择分类器,比如只有 10 个最佳(最确定)数据点?
例如,假设我训练了一个包含 500K 数据点的集合,而我的测试集有 10K 行,而在这 10K 中,我只想选择最有可能成为真阳性的 10 个。这有意义吗?
我已经阅读并一直在使用该class_weights属性,它可以很好地为每个二元结果类赋予更多/更少的权重,但它并不完全适合我想要的,因为它总是给出不同数量的位置预测,而且我真的无法确定分类器对每个分类器的确定程度。