数据挖掘 - 如何选择区分不同类别的最佳阈值？ - 吾爱随笔录

我已经训练了一个网络来查找两个图像之间的相似性。测试数据集包含相同数量的相似和不相似样本。每个班级大约有。13822 个样本。

我尝试了不同的阈值，例如，在网络的最后一层我使用了 sigmoid 激活函数，因此输出在 [0,1] 之间。

我测试了阈值，例如从 0.5 到 0.9（例如，如果预测分数大于 0.5/0.6/,....,/0.9，则将其视为正样本，否则视为负样本）。

基于这个策略，我得到了以下结果：

Threshold   TP  TN  FP  FN  Accuracy    Precision   Recall  F1
0.5 --> 12570   13804   18  1252    0.95    1.00    0.91    0.95
0.6 --> 12115   13813   9   1707    0.94    1.00    0.88    0.93
0.7 --> 11451   13819   3   2371    0.91    1.00    0.83    0.91
0.8 --> 10124   13822   0   3698    0.87    1.00    0.73    0.85
0.9 --> 5132    13822   0   8690    0.69    1.00    0.37    0.54

我感兴趣的是根据某种区分正负类的方法找到最佳阈值。