我正在尝试使用 Street View House Numbers 数据集学习一些深度学习。我已经设法识别数字序列,现在我想训练一个 CNN 来定位数字并提供框坐标。问题是我有与原始图像尺寸相关的框坐标,它们总是不同的。
我必须调整图像的大小以便为 NN 提供同质输入,但我不知道如何连贯地变换框坐标。
我正在尝试使用 Street View House Numbers 数据集学习一些深度学习。我已经设法识别数字序列,现在我想训练一个 CNN 来定位数字并提供框坐标。问题是我有与原始图像尺寸相关的框坐标,它们总是不同的。
我必须调整图像的大小以便为 NN 提供同质输入,但我不知道如何连贯地变换框坐标。
既然您说您在原始图像中获得了框坐标,为什么不将坐标减少完全相同的比例。
例如大小的图像中是(假设您同时没有裁剪任何东西),它在一般的
在减少后的分数答案时,请确保您的边界框覆盖更大的区域。例如,边界框左侧的 Y 坐标应推向 Y 轴,而右侧应推向 ceil 值,例如通过减少得到,在左侧时转到 25 而在当在边界框的右侧时。也同样上下。
希望这可以帮助。