在考虑对象检测时,对于单眼视觉和立体视觉之间的鲁棒性有一些通用的规则吗?我对汽车领域特别感兴趣-考虑距离/障碍物/汽车检测(请参阅下面的视频链接)。

有人告诉我,单眼视觉比立体视觉更强大。我想如果单眼算法写得很好(尤其是对大量输入数据进行了验证),这可能是正确的……但是,一旦输入了未经验证的(图像)数据,它可能会提供意想不到的结果,对吗?使用立体视觉,只要纹理/光照条件允许立体匹配,然后在点云内完成对象检测,就不会真正在意图像的内容。

我考虑以下用法:


单目
立体声

单目示例视频有时在检测前面的汽车时会遇到问题(包围盒有时会消失)。立体声样本似乎更坚固-在所有序列图像帧中都可以清楚地检测到前面的汽车。

#1 楼

您提供的两个视频执行的任务不同。立体声系统只是测量空间中不同点的距离(恰好在该视频中包括一辆汽车)。它会在其前面显示任何对象,但不会对对象进行分类。因此,汽车,人或垃圾桶与该算法具有相同的含义,并且只会返回距离。 “不是车”。该算法的另一部分是检测行驶车道的特征线(两条蓝线和一条黄线)。每个汽车的距离都是根据汽车相对于这些检测到的直线的相对位置来计算的。单眼系统视频中说明了什么。如果只需要距离,则立体视觉是许多可用方法之一。

评论


$ \ begingroup $
我并不是说这些视频可以互相抗衡。我的问题是,通常在单视觉或立体视觉下,是否可以实现更好的对象检测鲁棒性。立体声的意义在于,您可以轻松地在给定的点云中检测物体(即使第二个视频中未直接显示该物体,也可以始终将汽车识别为在云中)。我是作者还是立体声视频-我现在有一个新版本的算法,可以根据对象的大小进行对象检测。但是我只是对单眼视觉感到好奇。
$ \ endgroup $
– Kozuch
2015年3月25日在16:14



$ \ begingroup $
您是否要比较以图像与点云作为输入的情况下的对象检测性能?
$ \ endgroup $
– BarzinM
15年3月25日在16:19

$ \ begingroup $
不,我认为仅图像是立体声的源数据。我对立体声的观点是,立体声匹配算法实际上仅执行“机械”(就有限的智能需求而言)对应匹配,根本不关心图像内容分类(例如汽车,行人,路面等)。 ),因为与通过纹理/形状/进行物体检测相比,可能存在更少的错误,而在单视情况下却如此。我现在试图证明我的印象是立体声更好,但是正如我所说,我想了解两者之间的区别。
$ \ endgroup $
– Kozuch
15年3月25日在16:34

$ \ begingroup $
当然,在某些应用领域中,立体声和单声道都将具有一定的优势-例如,如果对象与其背景之间的深度差很小,那么立体声将很困难,也许单声道会更好(单声道-地板上的小物件的情况)。如果您对物体一无所知(颜色,形状,纹理等),但背景却离得很远,则立体声可能会占优势。在这种情况下,您将能够轻松地在点云中检测物体...
$ \ endgroup $
– Kozuch
15年3月25日在16:40

$ \ begingroup $
@Kozuch你得出了什么结论?也对立体声和单声道在物体检测方面的优势感到好奇(尽管对于运动而非汽车而言更多)。
$ \ endgroup $
– Crashalot
16年11月25日在22:59