我目前正在研究FREAK描述符,并且阅读了其设计师发布的文章。它指出,其目的是模仿视网膜拓扑,并且可以获得的优势之一是视网膜感受野重叠,从而提高了性能。

我考虑了很多,唯一能想到的解释是,从实现的角度来看这个问题,接受领域是一个整体。图像补丁以像素为中心,加上应用于此补丁的高斯滤波器的标准偏差。接收场的大小表示标准偏差的值。大小越大,在进行高斯滤波时将考虑的像素越多,因此我们将更多信息“混合”到一个值中。

但是我的这种猜测是非常业余的,如果有人可以从图像处理-计算机视觉-神经科学领域的发展趋势中做出解释,我将不胜感激。

#1 楼

作为一名神经科学家/工程师,他在工程师的生理学课程中教授视觉,但还没有阅读过FREAK的任何文档,因此我建议人们去看一下David Marr或Kuffler的作品。我在《视觉计算入门》和《灵长类动物视觉系统》(11MB PDF)中找到了一篇不错的评论。

视网膜感受野(或更恰当地说,是神经节细胞的输出,其中是神经节细胞的输出)视网膜层)具有中心周围的拓扑结构,其中感受野的外部部分与视野的中心部分相反。因此,照在视野中央的光点可能会激发神经节细胞,如果照在视野周围,可能会抑制同一细胞。这张图片(大部分来自Purves的生理学图片)以两种方式展示了这一想法,并且还在右下角显示了这种围绕中心的拮抗作用而产生的有趣的幻觉(中间的条形为恒定的灰色阴影) 。


这种排列方式(近似于高斯分布)的好处在于增加了神经节细胞的动态范围,并且还增强了视网膜所接收图像的边缘。

神经节细胞的输出相当直接地投射到外侧膝状核,再从那里投射到大脑的视觉皮层。在那里,神经节细胞的大致圆形感受野可以以有趣的方式结合起来,以响应对比线。这就是重叠字段如此强大的原因之一。从那里,您可以使用重叠的“行”字段来检测x,+等,从而变得越来越复杂。


#2 楼

有趣的问题!感谢您向我介绍FREAK!

本文只是说重叠的字段“增加了冗余”,我的解释是,像大多数检测器一样,FREAK本质上是在图像上滚动检测窗口。如果您将图像任意地分成不重叠的窗口,那么很有可能会将有用的图像补丁分成多个部分。视觉示例胜于冗长的解释。假设我有一个笑脸检测器,并且正在下面的图片中运行它。来自笑脸检测器的最强响应将来自蓝色窗口,但是如果我将图像分解为不重叠的窗口(红色区域),那么我将拥有四个cr脚的面部描述符,而不是一个强壮的面部描述符。



我说过,我不知道FREAK的详细信息,但是对于滚动窗口型检测器来说,这通常是窗口重叠的原因。