如何估计大型数据集的准确性?

数据挖掘 多类分类 评估 阶级失衡 采样 公制
2022-02-16 19:04:12

鉴于我有一个深度学习模型(前同事的交接)。由于某种原因,train/dev 集丢失了。

在我的情况下,我想将我的数据集分为 100 个类别。数据集极度不平衡。数据集大小约千万

首先,我运行模型并获得对整个数据集的预测。

然后,我对每个类别抽取 100 条记录(根据预测),得到一个 10,000 个测试集。

接下来,我为测试集标记了每条记录的基本事实,并计算了每个类别的准确率、召回率、f1,得到了 F1-micro 和 F1-macro。

如何估计整个数据集的准确性或其他指标?我使用每个类别的精度的加权和(权重是预测在整体上的比例)来估计是否正确?

1个回答

准确性具有特定含义分类 - 具有预测标签的数据点必须与数据点总数中的实际标签完全匹配。

为了计算准确性,您需要每个数据点的实际标签。如果您没有数据点的实际标签,则无法在分析中使用这些数据点。