运动鞋表示学习

数据挖掘 深度学习 美国有线电视新闻网 特征提取 图像识别 连体网络
2022-03-05 05:41:47

我正在尝试制作一个模型,它将鞋子的图像作为输入并输出鞋子的有意义的 N 维嵌入,以便它们可以被搜索/比较/聚类并用于推荐系统。

我的第一个猜测是使用带有在线硬挖掘三元组损失的连体 CNN(Densesnet + 1 个额外的全连接层用于 32 维嵌入生成)。所以这个想法是训练网络根据输出之间的欧几里得距离来预测图像上的鞋子是否属于同一个鞋子模型。

但是,它未能很好地概括,并且在测试数据上显示出很差的结果。我当前的数据集是约 500 种不同运动鞋模型的约 4k 图像。

在这种情况下我有什么选择?

1个回答

最好是从预训练的编码开始。请检查 TFHub ( https://tfhub.dev/google/collections/image/1 )。

我曾为一家运动时尚公司编码鞋子。请记住,图像可能被视为相似的方式有很多种,例如形状、颜色(!)等...您可能需要首先做出预处理选择以删除某些方面,例如处理灰色图像、模糊鞋子上的一些图案等等......