由于关于使用框式滤镜和积分图像,我们不必
将相同的滤镜迭代地应用到先前已过滤的
层的输出中,而是可以在
直接在原始图像上甚至在并行情况下都保持相同的速度
(尽管此处未利用后者)。因此,缩放比例空间是通过扩大滤波器的大小而不是迭代地缩小图像的大小来分析的,如图4所示。
PS:本文对积分图像进行了解释,但是,本文的全部内容均基于上述特定段落。如果有人读过本文,您能否简要介绍一下这里发生的事情。整个数学解释都很复杂,需要首先掌握,因此我需要一些帮助。谢谢。
编辑,几个问题:
1.
每个八度被细分为一定数量的音阶。
由于积分图像的离散性,最小标度
2个后续标度之间的差异取决于
中二阶导数的正负叶的长度lo。 >派生方向(x或y),该方向设置为
过滤器大小长度的三分之一。对于9x9滤镜,此长度lo为3。对于两个
连续级别,我们必须将此大小至少增加2个像素
(每侧一个像素),以保持大小不均匀和因此
确保中央像素的存在。这会导致掩模大小总共增加
6个像素(请参见图5)。
This is figure 4 in question.
br />我无法理解给定上下文中的界线。对于两个连续的级别,我们必须将此大小至少增加2个像素(每侧一个像素),以保持大小不均匀
,从而确保中央像素的存在。
我知道他们正在尝试对图像的长度进行处理,即使它们试图使图像变得奇特,因此存在一个中心像素,使他们能够计算像素梯度的最大值或最小值。我对它的上下文含义有些怀疑。
2.
为了计算描述符,使用了Haar小波。
中间区域的$ \ sum \ dx $低但$ \ sum \ | dx | $高。
3.
具有近似滤波器的必要性是什么?
4.
>他们发现过滤器尺寸的方式没有问题。他们凭经验“做”一些事情。但是,我对这条线有些困扰。
上一节介绍的9x9过滤器的输出被认为是初始比例图层,我们将其称为scale
他们如何发现σ的值。此外,缩放的计算如何完成,如下图所示。我之所以要声明此图像,是因为
s=1.2
的值不断重复出现,而没有清楚说明其起源。5。
用
L
表示的Hessian矩阵是高斯滤波器和图像的二阶梯度的卷积。称“近似”行列式仅包含涉及二阶高斯滤波器的项。
w
的值是:我的问题是为什么行列式要像上面那样计算,以及近似Hessian和Hessian矩阵之间的关系是什么。
#1 楼
SURF是什么?为了正确理解正在发生的事情,您还需要熟悉SIFT:SURF本质上是SIFT的近似。现在,真正的问题变成了:什么是SIFT ?。
SIFT既是关键点检测器又是关键点描述符。
在检测器部分,SIFT本质上是经典角点的多尺度变体。探测器,例如哈里斯(Harris)角,并具有自动调整比例的功能。然后,在给定位置和补丁大小(从比例尺得出)的情况下,它可以计算描述符部分。
SIFT很好地匹配了局部仿射图像,但它有一个缺点:它计算起来很昂贵(即很长)。
要花费大量的时间来计算高斯尺度空间(在检测器部分),然后在计算梯度方向的直方图(对于描述符部分)。
SIFT和SURF都可以看作是具有自动缩放(即高斯大小)选择的高斯的差异。这样,您首先要构建一个比例空间,在此空间中以不同比例过滤输入图像。比例空间可以看作是金字塔,其中两个连续的图像通过比例变化(例如,高斯低通滤波器的大小已更改)相关联,然后按八度音阶(即,很大的变化)对比例进行分组
在SIFT中,这是通过用固定宽度的高斯重复过滤输入来完成的,直到达到下一个八度音阶。 />在SURF中,由于使用了积分图像技巧,因此不会因高斯滤波器的大小而遭受任何运行时损失。因此,您可以直接计算在每个比例尺上过滤的图像(而不使用先前比例尺的结果)。
逼近部分
由于计算了高斯比例空间和梯度方向的直方图很长,用快速逼近代替这些计算是一个好主意(由SURF的作者选择)。
作者指出,小高斯分布(如SIFT中使用的高斯分布)可以通过平方积分(也称为框模糊)很好地近似。
这些矩形平均值具有很好的特性,可以很快获得
此外,实际上并没有使用高斯比例空间,而是近似使用了高斯的拉普拉斯算子(您可以在SIFT论文中找到它)。 >因此,您不仅需要高斯模糊的图像,还需要它们的派生和差异。因此,您只是进一步推高了用盒子近似高斯的想法:首先根据需要推导高斯多次,然后用一个正确大小的盒子近似每个波瓣。您最终将获得一系列Haar功能。
递增2
您猜到这只是一个实现工件。目的是要有一个中心像素。
相对于要描述的图像补丁的中心计算特征描述符。
中间区域
何时从黑线到白线,您会看到类似$ \ sum _ {\ text {列中的所有像素}} \ partial x = A $。然后,从白色变成黑色,您得到相反的总和:$ \ sum _ {\ text {列中的所有像素}} \ partial x = -A $。因此,窗口的$ \ sum \ partial x $较小,但幅度的总和较高。
幻数
第一个标度是通过应用$ \ sigma = 1.2 $(某些论文中为1.4)的模糊效果。这是因为可以将自然(真实)清晰图像视为具有宽度为\\ sigma = 1.2 $的模糊内核的理想(无混叠)图像卷积的结果。我真的不记得它的来源,但是它在Yu-Gushen Yu的A-SIFT研究中也得到了明确的研究,因此您可以查看此页面。
评论
$ \ begingroup $
感谢您的解释,它清除了一些内容,让我看看是否有人对此有更详尽的了解。
$ \ endgroup $
– motiur
2014年1月6日在17:01
$ \ begingroup $
我已经针对您的新问题编辑了答案。
$ \ endgroup $
–sansuiso
2014年1月8日在7:16
$ \ begingroup $
是的,谢谢。这篇论文太长了,所以很多事情马上就去了。
$ \ endgroup $
– motiur
2014年1月8日在9:38
$ \ begingroup $
想看我的最新编辑吗?
$ \ endgroup $
– motiur
2014年1月8日13:18
$ \ begingroup $
它是共同的共享知识(小高斯人通过盒子模糊可以很好地近似),实验(现实世界图像中感兴趣的对象的最小/最大大小)和数学(给定初始补丁大小,计算矩形和高斯人)的混合体适合)。
$ \ endgroup $
–sansuiso
2014年1月8日14:57
#2 楼
为了识别潜在的兴趣点,通常使用高斯差分函数(DOG)来处理图像,从而使图像的比例和方向不变。通过用增加sigma
值的DOG过滤每一层并求差。 另一方面,SURF使用高斯的拉普拉斯算子(LoG)和大小不同的正方形滤波器(9 * 9、15 * 15,...)对二阶高斯偏导数应用了更快的近似值。 ..)。计算成本与滤波器大小无关。对于金字塔中较高的级别,没有向下采样(更改
sigma
),但是只有向上过滤器尺寸的增大才导致具有相同分辨率的图像。 编辑
附加说明:您的论文的作者使用内核
[1 -2 1]
进一步简化了4个方向(x,y,xy,yx)上的高斯二阶导数, [1 -2 1]'
,[1 -1;-1 1]
和[-1 1;1 -1]
。当过滤器大小增加时,您只需要扩展简化的内核区域即可实现较大的区域。它相当于具有不同比例的DOG(LoG曲线与DOG的形状相同,并且过滤器的大小使它们的宽度也相等)。
评论
嘿!我在您的问题中添加了作者姓名和文章标题,希望您不要介意。首先,即使链接失效,它也可使文章可搜索。其次,作为从事研究的人,我认为要以作者的名字和出版物的名字来赞扬作者,这是我们最不认可他们的工作的方法:)@penelope:我有点害怕人们会否决我。
我认为这是一个非常好的问题,是最近最有趣的问题之一。我本人从未参加过SURF,但我明天可能会尝试看看是否可以做出贡献,这个问题实际上使我很感兴趣:)和PS:如果您是作为“官方” Uni项目的一部分来这样做的, ,我相信您的主管会很乐意为您提供帮助(特别是如果您是硕士级别)。他们的一部分工作是教您如何阅读科学文献。
PPS:您可能需要编辑问题,以对术语“积分图像”和“框式过滤器”进行简短说明:了解您的了解可能会帮助我们了解您不了解的内容;
@penelope:你是一个非常漂亮的女孩/家伙,随便。而且,我无需对本文进行文献复习,而是阅读了David Lowe于2004年和1999年撰写的一篇文章。那本书相当不稳定,此外,在YouTube上也有不错的演讲。问题在于本文中使用了大量的数学术语,即SURF。如果您的脑海中没有数学模型,则很难理解主要思想。