单目和立体图像有什么区别?

信息处理 图像处理
2022-02-09 06:47:44

我在 SE 的某个地方读到了有关立体声和单声道视频的信息。立体视频是使用两个摄像头拍摄的,我们可以使用它们准确测量深度。但是静止图像呢?立体图像和单声道图像有什么区别?

另一个问题:如果我在立体声数据集上应用算法,会获得与单声道数据集相同的结果吗?与其他类型的图像相比,立体图像的分割在多大程度上有所不同?

2个回答

你有没有想过为什么人和许多动物都有两只眼睛?通过使用两只眼睛,我们可以感知深度。原理很简单,当你看屏幕的时候,把头固定住,闭上一只眼睛,试着看屏幕后面的所有东西,现在睁开你闭上的眼睛,再闭上另一只眼睛,试着看同样的东西, 你能看到差别吗?

每只眼睛都向我们的大脑发送信息。这个信息几乎是一样的,如果你可以有两张你的双眼的照片,然后你试着把这张照片重叠起来,你会发现离你眼睛最近的物体有很大的位移,而远处的物体有很大的位移很小。这些观察到的位移被转化为物体的深度。

现在另一个可以帮助你理解这个概念的实验是这样的:试着让你的视线固定闭上你的眼睛一会儿,现在只睁开一只眼睛但尽量不要移动你的视线,试着触摸你周围的东西,但请记住保持您的视图修复,这很简单吗?现在闭上一只眼睛,移动你的头并尝试做同样的事情,更容易吗?通过移动你的头,你正在向你的大脑提供关于物体有多远的信息,因为在最近的物体中,可观察到的位移会更大。当然,您应该考虑到眼睛还有其他类型的细胞可以帮助我们感知深度。但是在一对简单的立体相机中,我们可以恢复的信息只是每个图像中同一点的距离,即视差图,并且有很多方法可以恢复它,光流很常见。这种信息通常用于了解 3D 空间,并应用分割来比较相机和对象之间的距离。

虽然仅使用相机,但您可以仅比较强度变化,并尝试通过使用大量指标来检测主要变化。通过保持相机固定并尝试忽略场景中没有移动的事物,使用这种系统来跟踪对象是很常见的。

在立体视频/图像中,每帧/图像都有更多信息,可以创建图像/视频信号(深度)的 3D 演示。您可以从 3D 创建单声道图像/视频。您无法从单声道图像/视频信号创建 3D 演示。那是因为旧电影不是用两个相机从两个稍微不同的方向拍摄的,所以不能转换成 3D。