鉴于我有一个深度学习模型(前同事的交接)。由于某种原因,train/dev 集丢失了。
在我的情况下,我想将我的数据集分为 100 个类别。数据集极度不平衡。数据集大小约千万
首先,我运行模型并获得对整个数据集的预测。
然后,我对每个类别抽取 100 条记录(根据预测),得到一个 10,000 个测试集。
接下来,我为测试集标记了每条记录的基本事实,并计算了每个类别的准确率、召回率、f1,得到了 F1-micro 和 F1-macro。
如何估计整个数据集的准确性或其他指标?我使用每个类别的精度的加权和(权重是预测在整体上的比例)来估计是否正确?