关于这种机器学习方法的看法

信息处理 图像处理 计算机视觉 机器学习 cbir 深度学习
2022-02-18 20:41:35

我有一个问题要问你,也许你能给我一个线索。

我正在尝试制作一个 CBIR(基于内容的图像检索),所以我查询了一张图像,我得到了最相似的图像,而不是在大约 2000 张图像的数据库中分类。我正在尝试提取特征并通过欧几里得距离匹配它们,但我将尝试使用名为Caffe的框架来训练它们,以进行深度学习(神经网络)。

所以,我所做的是通过 3d 投影为每张图像采集 10 个样本(所以我拍摄图像 635.jpg,然后制作 635_1.jpg 等到 635_10.jpg)并且我使用原始图像 635.jpg 作为验证数据。因此,如果有 2000 张图像,我使用 20.000 张图像进行训练,并使用 2.000 张图像来验证 2.000 个类别……您认为这是个好主意吗?

先感谢您。


尽管我一直在尝试,但由于对 Mac OSx 的依赖存在大量错误,我仍然无法在 Caffe 上进行训练。我将切换到 Ubuntu,看看有什么问题。

1个回答

这是个好主意,也很标准。但是,您的问题将是数据的扩充。如果您从多个视点/旋转等渲染图像并仅使用纯背景,则网络会将该信息包含到训练阶段,例如形状提示。所以,你必须使用不同的背景。这当然是特定场景的。但是,您也许可以缩小场景范围,以便随机生成/扰乱不同的背景结构。

另请注意,您可能可以扩展到数千个班级,但达到数百万个可能会令人头疼,因为训练这个网络会非常困难。

您不妨采用标准的索引/散列方法,它们已经表现得很好。