我想知道你采取什么步骤来决定模型的解冻部分。你做多个实验吗?由于使用 GPU 的成本很高,因此您必须有一些指导方针。
注意:我知道数据集的大小、数据集与原始数据集的接近程度以及我们是否训练更多层之间的关系。但是,是否有一个经验法则涉及模型的深度以获得近似层?
示例:尝试从第 169 层或第 70-100 层开始解冻模型
需要多少了解预训练模型的细节?我可以在不了解架构的情况下使用它吗?
感谢您的帮助!
如何选择解冻图像分类模型的层
数据挖掘
分类
迁移学习
2022-03-05 23:07:35
2个回答
关于 #1:正如您所提到的,您在预训练 (PT) 网络上进行的以下拟合量取决于数据的相对大小和相似性以及用于训练 PT 模型的数据。
- 如果我们的数据集小于 PT 数据,我们应该解冻更少的层以避免过度拟合。
- 如果我们的数据集与 PT 数据的大小相似,我们可以解冻更多的层,因为过拟合不是问题。
本质上,更多的冻结层意味着更少的过度拟合,因为这些层将保留 PT 网络相对通用的特征。因此,您可以像使用任何其他超参数(网格搜索等)一样使用超参数调整(以及交叉验证的结果)来优化它。
关于#2:是的,您当然可以使用 PT 模型进行拟合和预测。但是,您对模型的架构了解得越多,您就能更好地调整模型,并最终改善您的结果。
解冻最顶层的第一步。这允许模型学习当前数据集的特定目标。
然后层应该逐渐解冻。通常,较高层学习较低层的非线性组合。较低层学习特定于任务的特征选择。这是一个更好的权衡,更长的训练时间和学习更好的特定任务特征。
其它你可能感兴趣的问题