我正在解决一个特定的分割任务,使用两个版本的 U-net 架构——第一个是经典 U-net,另一个是 Attention U-net。目前,我正在尝试确定哪一个更适合我的特定用例。
我遇到的问题是,由于模型学习的随机性,没有两个相同架构的结果是相同的。例如,假设我训练了两个模型(一个接一个,使用相同的架构,比如 U-net),对于选择的测试数据,第一个模型的准确率为 98.5%,另一个模型的准确率为 97.5%准确性。然后我使用另一种架构(注意力 U-net)训练另外两个模型,例如得到结果:97.6% 和 98%。
问题是第三个训练模型可以给我一个大概 95% 的值。
由于这些“随机”结果的范围,我不知道如何评估架构的性能以及如何找到两者中更好的一个。
确定这两种架构的性能并进行比较的最佳方法是什么?
我正在使用 keras。