我目前正致力于在 Python 中实现一袋视觉词。我得到了它如何工作的一般要点,但我似乎找不到任何可以更详细地解释它到我可以实现它的级别的资源。我猜 scikit learn 和 scikit image 会出现,但我似乎无法为自己指明正确的方向。有什么帮助吗?
什么是视觉词袋,它是如何实现的?
数据挖掘
Python
分类
scikit-学习
2022-03-11 19:02:23
1个回答
必要的信息可以在维基百科上找到。
“当我们使用更多技术特征时,例如颜色直方图” 从这句话来看,我猜你需要了解“代码本”的生成。
第一步是提取图像中补丁的特征。为了提高效率,您只想获取有趣的补丁并计算它们的判别特征。SIFT 是一种为您执行两个步骤的方法。它负责寻找好点并计算该点的特征。
现在您可以生成您的密码本。码本会将所有可能的特征向量(毕竟它们只是数字向量)映射到某个输出码字。这样做的一种可能性是使用 k-means 生成码本。构建代码本后,通过查找到所有条目的最小距离将向量映射到代码(因为您使用了 k-means,所以可以使用欧几里得距离)。
现在你已经完整地实现了词袋模型。您现在可以深入使用它进行分类。可以使用您提到的库来实现所需的算法。
其它你可能感兴趣的问题