数据挖掘 - Streets View House Numbersm 上的数字本地化 - 吾爱随笔录

数据挖掘机器学习 Python 深度学习张量流

2022-02-21 17:47:00

我正在尝试使用 Street View House Numbers 数据集学习一些深度学习。我已经设法识别数字序列，现在我想训练一个 CNN 来定位数字并提供框坐标。问题是我有与原始图像尺寸相关的框坐标，它们总是不同的。

我必须调整图像的大小以便为 NN 提供同质输入，但我不知道如何连贯地变换框坐标。

1个回答

既然您说您在原始图像中获得了框坐标，为什么不将坐标减少完全相同的比例。

例如大小的图像中是（假设您同时没有裁剪任何东西），它在一般的 $(100,100)$ $(1024,1024)$ $(256,256)$ $(25,25)$

(x_{n e w}, y_{n e w}) = (\frac{x_{o l d} * l_{n e w}}{l_{o l d}}, \frac{y_{o l d} * b_{n e w}}{b_{o l d}})

$(x_{new},y_{new}) = (\frac{x_{old}*l_{new}}{l_{old}},\frac{y_{old}*b_{new}}{b_{old}})$ 其中是图像的长度，是宽度。

l

$l$

b

$b$

在减少后的分数答案时，请确保您的边界框覆盖更大的区域。例如，边界框左侧的 Y 坐标应推向 Y 轴，而右侧应推向 ceil 值，例如通过减少得到，在左侧时转到 25 而在当在边界框的右侧时。也同样上下。 $25.5$ $26$ $x's$

希望这可以帮助。

其它你可能感兴趣的问题