#1 楼
无需赘述,可以回答您的问题。也就是说,摄像机图像确实包含有关对象距离的信息,但仅与通常嵌入模型中的环境信息(例如有关对象的模型,它们的外观及其大小)结合在一起。从本质上讲,它的工作原理必须类似于人类如何确定距对象的距离,而该距离超出了我们的双眼可以利用立体声提示的范围。也就是说,我们估计一个熟悉的物体正在使用其表观大小到多远。如果您看到外观较小的汽车,则认为它相距遥远,因为您知道汽车的典型尺寸。
这显然需要对象识别模型,该模型还应提供实际尺寸信息与边界框的外观大小一起使用来确定距离。
请记住,它不仅与对象识别模型一样好,而且可能会被愚弄(-是远处的真车还是近距离的玩具车?)。
评论
使用PoseNet您将获得哪些确切信息?他们的剑桥项目有很大的误差。另外,您的图像中是否有任何您知道确切大小的东西?MonoDepth于去年发布,它使用立体图像训练深度估计器。您可以使用他们经过预先训练的模型来估计图像的深度,然后只关心检测到的对象:visual.cs.ucl.ac.uk/pubs/monoDepth