如何总结任何分类方法的一般性?

数据挖掘 数据 预处理 研究
2022-02-17 06:04:26

假设一个分类任务A,有很多方法M1,M2,M3. 任务A是通过一致的度量来衡量的。例如,任务 A 可以是二元分类。在这种情况下,可以使用 F-score、ROC 曲线。

我对一些研究进行了调查,发现

  • M1用数据集评估D1(打开)使用预处理P1只有(似乎是开创性的工作)。
  • M2用数据集评估D1(打开),D2(私人)并与M1, 声称M2有更准确的结果,但使用不同的数据预处理P2.
  • M3提出了使用数据集的新方法D3(私人)并且没有提供任何比较M2M1

我正在尝试在这方面工作,但有很多不一致之处。没有一种方法通过验证数据进行验证。他们只是使用了训练和测试数据。我认为一些参数是为测试数据集调整的,尽管作者没有这么说。由于该领域不是面向数据科学的,并且数据集的数量很少,因此可能会发生这种情况。

我们可以将哪种方法视为最先进的方法?

我们如何得出每种方法的普遍性?

1个回答

您在系统/模型评估的当前状态中遇到了一个不幸的常见问题。除了对不同的数据集进行评估外,作者通常会遗漏重要的细节,例如超参数调整的过程、详细的评估指标(即除了 F 分数之外的真阳性、假阴性等)和消融分析。在这种情况下,我们不能断定一种方法一定比其他方法或最先进的方法更好。

当文献迄今为止未能做到时,估计每种方法的普遍性的最佳方法是自己实施每种方法并进行公平的比较评估。您将使用相同的预处理步骤和超参数调整过程评估同一数据集上的所有方法,并在可能的情况下引入其他评估数据集。执行消融分析也很有启发性,您可以在其中迭代地删除方法的某些组件并重新评估以查看您对性能的影响有多大。

执行上述操作并进行交流(通过出版物、博客文章或其他方式)不仅可以帮助您,还可以帮助该领域的其他所有人。