数据挖掘 - 确定哪种深度学习模型架构更好 - 吾爱随笔录

我正在解决一个特定的分割任务，使用两个版本的 U-net 架构——第一个是经典 U-net，另一个是 Attention U-net。目前，我正在尝试确定哪一个更适合我的特定用例。

我遇到的问题是，由于模型学习的随机性，没有两个相同架构的结果是相同的。例如，假设我训练了两个模型（一个接一个，使用相同的架构，比如 U-net），对于选择的测试数据，第一个模型的准确率为 98.5%，另一个模型的准确率为 97.5%准确性。然后我使用另一种架构（注意力 U-net）训练另外两个模型，例如得到结果：97.6% 和 98%。

问题是第三个训练模型可以给我一个大概 95% 的值。

由于这些“随机”结果的范围，我不知道如何评估架构的性能以及如何找到两者中更好的一个。

确定这两种架构的性能并进行比较的最佳方法是什么？

我正在使用 keras。