所以精度计算为 tp/(tp+fp)
但这似乎不是评估模型的好方法,因为以下两者都会给出 1?
二进制分类
[0,0,0,0,0,0,0,0,1] or [0,1,1,0,1,1,1,0,1]
我在这里错过了什么吗?或者是否有更好的二进制分类指标可以限制误报的数量,同时产生最多的真阳性?
我猜你会告诉我F1?
所以精度计算为 tp/(tp+fp)
但这似乎不是评估模型的好方法,因为以下两者都会给出 1?
二进制分类
[0,0,0,0,0,0,0,0,1] or [0,1,1,0,1,1,1,0,1]
我在这里错过了什么吗?或者是否有更好的二进制分类指标可以限制误报的数量,同时产生最多的真阳性?
我猜你会告诉我F1?
如果没有黄金标准,您的示例就没有意义,评估措施通过将预测标签与真实标签进行比较来工作。
回答您的问题:精度本身不足以评估模型,它总是与召回一起使用。事实上,这两者经常结合成 F 分数。
我在这里错过了什么吗?或者是否有更好的二进制分类指标可以限制误报的数量,同时产生最多的真阳性?
技术上的准确性满足两个条件:
然而,准确性并不能区分正例和负例,这通常是一个问题(除非类是平衡的)。