如何从图像中删除背景(水印)标志

数据挖掘 机器学习 深度学习 计算机视觉 图像预处理
2022-02-16 17:47:45

我一直在挠头。我所拥有的是一个扫描的 PDF 文档,其背面有文字和水印徽标,如下图所示。

在此处输入图像描述

我想对此进行 OCR,由于徽标,这变得非常困难。到目前为止,我所做的所有棘轮都是针对彩色图像,他们可以在其中找到对比度差异。如图所示,我在为 B&W 图像解决相同问题时遇到了困难。希望对实现我正在寻找的方法/方法的任何帮助/建议。

2个回答

看看 python cv2 模块。它具有使您能够删除水印的功能。如果您有单独的水印图像并且它始终位于每个图像中的相同坐标位置,您应该能够从图像中减去它

在我们深入研究之前,水印是像浅灰色水印还是像文本一样暗?因为它可以像对一些灰饼值进行阈值化一样简单,以将其过滤掉。

如果它像文本一样暗,我不能 100% 确定这是否可行,但您可以构建一个小型应用程序来创建此类图像的数据集,在其中将一些水印叠加在文本上。之后,您可以在数据集上训练一个类似于 style-gan 的模型来转换图像并清理文本。任何对 GAN 更有经验的人都应该能够确认这种方法是否值得。