数据挖掘 - sklearn 使用分类器选择 N 最佳 - 吾爱随笔录

这里是一个非常简单的问题，但似乎无法在通常很棒的 sklearn 文档中找到答案。

我正在使用二进制分类器，但我们可以假设我正在使用LogisticRegression，我想知道是否有一种通用的方法来选择分类器，比如只有 10 个最佳（最确定）数据点？

例如，假设我训练了一个包含 500K 数据点的集合，而我的测试集有 10K 行，而在这 10K 中，我只想选择最有可能成为真阳性的 10 个。这有意义吗？

我已经阅读并一直在使用该class_weights属性，它可以很好地为每个二元结果类赋予更多/更少的权重，但它并不完全适合我想要的，因为它总是给出不同数量的位置预测，而且我真的无法确定分类器对每个分类器的确定程度。

#some code to do this top_picks_indexes = y_test_predicted_probability[:,1].argsort()[-10:] # chose top 10 probabilities for class = 1 # create a vector, Y_top_picks, with all zeros except ones for the selected top probabilities Y_top_picks = np.zeros(len(X_test)) Y_top_picks[top_picks_indexes] = 1