当我们将图像用作 CNN 的输入并且我们只想对图像的一部分进行分类时,我们通常会为分类器提供图像的裁剪。
假设我的图像分别称为 frame 和x, y,w和hare xmin, ymin, xmaxand ymax:
frame = frame[y:y + h, x:x + w] #Crop a part of the image
是什么y:y或x:x意味着什么,为什么我们将它们分别h与 和相加w?
我一直看到一些人以以下方式进行作物:
frame = frame[y:h, x:w] #Crop a part of the image without adding to `w` and `h`
我看到在某些地方使用了第二种方法,例如以下行:https ://github.com/balajisrinivas/Face-Mask-Detection/blob/master/detect_mask_video.py#L51
有什么不同?