Streets View House Numbersm 上的数字本地化

数据挖掘 机器学习 Python 深度学习 张量流
2022-02-21 17:47:00

我正在尝试使用 Street View House Numbers 数据集学习一些深度学习。我已经设法识别数字序列,现在我想训练一个 CNN 来定位数字并提供框坐标。问题是我有与原始图像尺寸相关的框坐标,它们总是不同的。

我必须调整图像的大小以便为 NN 提供同质输入,但我不知道如何连贯地变换框坐标。

1个回答

既然您说您在原始图像中获得了框坐标,为什么不将坐标减少完全相同的比例。

例如大小的图像中(假设您同时没有裁剪任何东西),它在一般的(100,100)(1024,1024)(256,256)(25,25)

(xnew,ynew)=(xoldlnewlold,yoldbnewbold)
其中是图像的长度,是宽度。lb

在减少后的分数答案时,请确保您的边界框覆盖更大的区域。例如,边界框左侧的 Y 坐标应推向 Y 轴,而右侧应推向 ceil 值,例如通过减少得到,在左侧时转到 25 而在当在边界框的右侧时。也同样上下25.526xs

希望这可以帮助。