我有一组用于训练模型的真阳性 (TP) 值。
我正在使用 5 折交叉验证来训练我的模型(即将我的真阳性分成 5 个,使用 4/5 进行训练和 1/5 进行测试)
我使用不同的 1/5 作为测试集重复此操作。对于每次运行,我都有大量混合的真阳性/真阴性,我使用我训练过的模型来尝试对其进行分类。然后我得到一个 ROC 曲线。这是为每次运行交叉验证完成的(即我最终得到 5 条 ROC 曲线)
然后我平均 AUC 并返回它。
我的问题:
我有两种分类方法:将它们称为方法 A 和方法 B。对于每种方法,我得到 5 条 ROC 曲线。如果每种方法都有多个 ROC,我如何确定哪种方法可以提供更好的 ROC?
我知道计算每种方法的 AUC 和平均值,然后比较平均 AUC 不是一个好方法。
注意:我有超过 1 个模型(大约 120 个)。为了简单起见,我只是用一个模型来解释。所以我有 120 个模型,每个模型都使用方法 A 和方法 B 对数据进行分类,并且对于每个方法 A 和 B,有 5 个来自交叉验证的 ROC。
编辑
更具体地说,我的问题是我有超过 100 组序列,并且对于每组我构建一个位置权重矩阵,然后我用它来对所有合并在一起的集合进行评分。我有几个评分方案,所以我想确定哪些给我最好的分类。为此,我使用交叉验证:将我的数据分成每组 5 个,用 4/5 的数据训练我的 pwm 并在 1/5 上进行测试。汇集 5 次运行的结果,并绘制 AUC。