概述
该篇论文整体的框架如下:
图1:拟议的HASiam的架构。与传统的Siamese网络直接使用特征图进行匹配不同,我们首先将特征图放入A-Net中,然后将输出的关注特征图与搜索区域的特征图相互关联。为了充分利用每一层的所有特征,我们对每一层重复相同的过程,得到关注特征,然后在每个卷积块之后进行互相关。最后的位置由所有响应映射估计,对象的大小由所有具有投票策略的响应映射估计。
关键部分的选择
特征提取部分作者采用了一种直观的策略,对目标的不同部分施加不同的权重,以解决关键部分,抑制目标的不重要部分。作者采用了一种新的分层方法去计算注意权重,以提高匹配效率。注意力权值的计算过程分为两个过程。首先找到对象的关键部分,然后利用该关键部分进一步计算注意权值,以提高匹配精度。
图2:我们在物体的四分之一大小上使用遮罩来找到关键部分。匹配块填充对象的平均像素值,并粘贴在特定位置。将遮罩后的图像与原始对象进行比较,保留最小值的遮罩图像。根据被遮罩图像的被遮罩位置,从对象patch中裁剪出遮罩下的patch作为关键部分。
作者使用了传统的Hog特征方法,其中O表示对象块,O
m
a
s
k
(
i
)
_{mask}(i)
mask(i)表示某一位置覆盖黑色像素的被遮挡对象,i∈{1, 2…,9}表示从左上角到右下角的候选点。选取内积值最小的遮挡图像。
注意权重
通过对比所有经过遮罩后的图像,找出得分最低的遮罩图像(说明被遮挡部分最重要),获得遮挡(关键)部分与目标进行亚孪生操作,获得注意特征。说白了,A-Net网络就是进行了两次互相关操作。
使用孪生网络提出的A-Net架构。首先,目标和关键部分进行互相关,得到注意权重。然后将权值与目标相结合,通过提高注意部分的匹配结果和降低非显著部分的匹配结果来提高匹配性能。最后输出注意特征,用于搜索区域的定位。
其中,corr为互相关操作,f(C)、f(E)、f(S)分别为目标的关键部分、目标和搜索区域的输出特征。
我们的注意力权重在数据集Board序列上的说明。当缺少对关键部分的关注时,如第一行所示,目标区域的响应弱于背景区域。将注意力集中在目标上,修改响应图,使目标脱颖而出,成功定位到正确的目标。
对于所提出的两个嵌套的暹罗网络,可以近似地将其视为两个独立的暹罗网络。它结合了两个层次的搜索过程:1)粗粒度搜索找到与示例最相似的部分,2)细粒度搜索找到与关键部分最相似的部分。所提出的注意力机制不需要训练。
最后
以上就是端庄彩虹为你收集整理的Visual Object Tracking by Hierarchical Attention Siamese Network的全部内容,希望文章能够帮你解决Visual Object Tracking by Hierarchical Attention Siamese Network所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复