概述
目录
摘要
引言
2,相关工作
2.1目标跟踪方法
2.1.1生成式方法
2.1.2 判别式方法
2.2基于DCF跟踪器
2.2.1核心理念
2.2.2总体结构和主要步骤
2.2.3基本框架
2.3 CF机载无人机
3,基于DCF方法的发展
3.1 基础
3.1.1 MOSSE tracker
3.1.2 CSK tracker
3.1.3 KCF tracker
3.2 尺度评估
3.2.1 SAMF tracker
3.2.2 DSST & fDSST tracker
3.3 特征表示
3.3.1 CN tracker
3.3.2 staple tracker
3.3.3 MCCT-H tracker
3.4 边界效应
3.4.1 SRDCF & SRDCFdecon tracker
3.4.2 CSR-DCF tracker
3.4.3 BACF tracker
3.5 时间一致性
3.5.1 STRCF tracker
3.5.2 ARCF-H & ARCF-HC tracker
3.5.3 AutoTrack tracker
3.6 额外类型
3.6.1 LCT tracker
3.6.2 ECO-HC tracker
3.6.3 CACF tracker
3.6.4 KCC tracker
4, 实验评估和分析
4.1 实施信息
4.1.1评估指标
4.1.2实验平台
4.1.3参数设置
4.1.4基准
4.2基于DCF的跟踪器的总体性能
4.3无人机特殊属性的性能分析
4.4 针对深度跟踪器
4.5 失败案例和挑战
5 机载评估
6,进一步的发展
7,总结
摘要
航空跟踪是遥感领域最活跃的应用之一,它展现了无处不在的奉献精神和卓越的性能。尤其是基于无人机的遥感系统,配备了视觉跟踪手段,已经广泛应用于航空、航海、农业、交通和公共安全等领域。如上所述,基于无人机的航空跟踪平台已经从研究阶段逐步发展到实际应用阶段,成为未来主要的航空遥感技术之一。然而,由于现实世界的复杂情况,例如恶劣的外部挑战、无人机机械结构的振动(特别是在强风条件下)、复杂环境中的机动飞行以及有限的机载计算资源,准确性、鲁棒性和高效率对于机载跟踪方法都至关重要。最近,基于判别相关滤波器(DCF)的跟踪器因其在单个CPU上的高计算效率和吸引人的鲁棒性而脱颖而出,并在UAV视觉跟踪社区中蓬勃发展。本文首先概括了基于DCF的跟踪器的基本框架,在此基础上,根据其解决各种问题的创新性依次总结了23种最新的基于DCF的跟踪器。此外,在各种主流无人机跟踪基准上扩展了详尽和定量的实验,即UAV123、UAV123@10fps、UAV20L、UAVDT、DTB70和VisDrone2019-SOT,总共包含371,903帧。实验展示了DCF跟踪器的性能,验证了其可行性,并展示了当前基于DCF跟踪器的无人机跟踪面临的挑战。此外,本文还在典型的基于CPU的机载PC上实现了出色的基于DCF的跟踪器,以实现真实的飞行无人机跟踪测试,进一步验证其在挑战性场景下的实时能力和鲁棒性。进一步提供了基于DCF的无人机跟踪方法领域未来研究趋势的简要总结。最后,对未来的研究方向提出了全面的结论。
引言
航空视觉目标跟踪目前在遥感领域备受关注,发展迅速[1]–[5]。特别是广泛使用的无人机(UA V)平台[6]-[8],当配备视觉跟踪技术时,它们具有体积小、运动灵活和高安全性,在广泛的应用中蓬勃发展,例如,野生动物救援[9]、目标跟踪[10]-[12]、车辆跟踪[1]、灾害响应[13]、[14]、电影摄影[15]、基础设施检查[16]、[17]等。具体来说,移动无人机通常需要连续定位(和跟踪)某个目标,其中实时和鲁棒的单目标跟踪算法是必不可少的。然而,在无人机上的复杂场景下,实现鲁棒、准确和实时的跟踪是一项非常具有挑战性的任务。与一般的跟踪场景相比,在一般的跟踪场景中,摄像机通常是静止的或缓慢移动的,并且存在较少的几何和光度变化,无人机跟踪面临着更艰巨的挑战,具体如下:
1,采样分辨率不足:UA V的大视觉范围导致更多的背景信息,最终导致物体分辨率的降低,从而导致模型表现较弱。弱模型表示由于其较差的辨别能力而使跟踪者容易丢失目标。
2,快速运动问题:无人机具有很大的自由度和很高的机动性,这使得无人机和被跟踪物体都在快速运动,这给跟踪任务带来了更大的挑战。此外,在飞行过程中,无人机通常不可避免地会遇到机械振动,尤其是在强风的影响下,甚至会导致运动模糊。物体位置的这种快速变化对跟踪器来说更具挑战性。
3,严重的视觉遮挡:作为UA V跟踪中常见的现象,部分甚至完全遮挡可能导致物体严重退化,进而导致跟踪失败。
4,剧烈的光照变化:UA V的光照条件可以快速变化,包括从明亮到昏暗,从室内、树冠和阴影区域到明亮的室外,甚至在阳光下。这种场景会导致各种各样的物体出现,从而使得跟踪具有挑战性,此外,经常会遇到复杂恶劣的场景,如夜间光照条件差、雨天或雾天等场景,使得跟踪者很难将目标与背景区分开来。
5,视点变化:作为一个常见的场景,UA V可以围绕对象飞行360度,这使得机载相机可以捕捉3D对象的不同方面,例如,人的背部和前侧,其中对象外观可能会发生严重变化。在这样的场景下,如果没有及时的在线学习和模型更新,跟踪器可能会丢失目标。
6,计算资源稀缺:由于有限的电源和有效载荷问题,大多数UA Vs只使用单个CPU作为计算平台,极大地限制了处理速度。为了满足无人机跟踪的实时性要求,需要精心设计方法,在不牺牲高效率的前提下实现鲁棒跟踪。此外,算法需要足够轻,以便为耗能应用(如无人机在复杂环境下的机动飞行)留下更多电源。
图1显示了具有代表性和挑战性的基于无人机的空中跟踪场景。鉴于上述挑战,研究和开发一种快速、鲁棒的视觉跟踪方法对于基于无人机的遥感应用的广阔前景是非常关键和有价值的
在各种跟踪方法中,基于鉴别相关滤波(DCF)的跟踪器通常具有高速度和高精度。基于DCF的方法的最重要的特征和惊人的亮点是,它们通过离散傅立叶变换将空间域中的循环相关或卷积的计算转换为频域中的逐元素乘法。这种策略极大地提高了基于DCF的跟踪器的运行速度,在单CPU平台上大多数跟踪器的运行速度可达每秒30帧以上,满足了无人机的实时性要求。由于基于DCF的跟踪器在单个CPU平台上的出色和非凡性能,过去几年见证了基于DCF的跟踪器在无人机跟踪上的快速发展和良好效果[5]、[22]-[27]。
即使有一些研究提到或总结了基于DCF的目标跟踪[28],[29],但他们很少关注基于UA V的空中跟踪场景(这更复杂,更具挑战性,而且资源有限)。此外,到目前为止,大多数在遥感领域回顾无人机的研究要么是关于无人机平台应用的一般性回顾[30],[31],要么是用于控制无人机的详细策略[32],[33],所有这些都没有关注无人机在复杂场景下的鲁棒、精确和实时跟踪方法 。
据我们所知,近年来关于无人机实时跟踪的综述很少,更不用说关注基于DCF的跟踪器在无人机场景中的性能了。换句话说,还没有对应用于UA V平台的基于DCF的跟踪算法进行系统和全面的回顾。基于DCF的追踪器已经在无人机追踪领域得到了广泛的应用,目前相关的出版物数量也在显著增加,因此有必要对其进行系统的总结和分析,以全面、客观地了解DCF在无人机追踪方面的优势和实用性。因此,本文对过去十年中基于DCF的跟踪算法进行了综述,介绍了它们的特殊贡献。这项工作还进行了大量的实验,并在各种权威的UA V基准[18]-[21]上分析了先进的具有代表性的基于DCF的跟踪器,以证明它们在空中跟踪中的可靠性和优越性。大量的实验结果证实了基于DCF的算法在无人机跟踪中的优越性,可以期待DCF在无人机跟踪中更令人兴奋的前景。在此基础上,我们给出了基于DCF方法的关键瓶颈。此外,出色的基于DCF的跟踪器[22]、[24]也在典型的基于CPU的板载PC(即Intel NUC8i7HVK)上实现,以实现UA V跟踪测试。这项工作也指出了潜在的方向,指导进一步的研究DCF的无人机跟踪。
这项工作的主要贡献有四个方面,概括如下:
1,综合复习。这项工作提供了一个基于DCF的跟踪器的一般框架,并根据它们的创新和贡献总结了大多数最新的基于DCF的跟踪器。
2,代码库1。这项工作将大多数公开可用的基于DCF的跟踪器集成在一个代码库中。此外,我们还整理了实验结果以方便参考。
3,实验评估1。该工作扩展了基于DCF的跟踪器在6个权威UA V基准上的详尽实验,即UA V123、UA V123@10fps、UA V20L、UA VDT、DTB70和Visdrone2019-SOT,以展示其在复杂场景下的性能以及相对于其他类型跟踪器的优势。
4, 车载测试。这项工作进一步在典型的基于CPU的机载PC上实现了基于DCF的跟踪器,以实现真实的飞行无人机跟踪测试,其中验证了它们在哈希场景下的实时能力和鲁棒性。
本文的其余部分组织如下:第2节概括回顾了视觉跟踪领域的最新方法,介绍了基于DCF的跟踪器的基本框架,并说明了是什么使基于DCF的方法适用于UA V。第3节介绍了基于DCF的跟踪方法的逐步发展和可喜的创新。此外,这一部分以清晰的逻辑整合了基于贡献的跟踪器。第4节提供了大量的实验结果和分析,基于跟踪器在每个UA V基准上的性能,以展示在明确的UAV跟踪挑战中其实用性、优越性以及跟踪结果根据评估结果,总结出目前没有很好解决的故障案例。此外,在第5节中,展示了机载PC在真实飞行跟踪测试中的性能,其中基于DCF的方法被证明是适合和能够用于UAV跟踪的。此外,第6节提供了在空中跟踪的DCF领域潜在的未来工作。最后,第7节对本文的工作进行了总结
2,相关工作
2.1目标跟踪方法
根据不同的表示方案,目标跟踪方法一般可分为两类:生成式方法[34]-[36]和判别式方法[37]-[39]
2.1.1生成式方法
生成式方法的主要思想是从第一帧的目标区域中学习一个特征模板,在后续帧的搜索区域中找到与模板外观最相似匹配的区域作为跟踪结果。众所周知,早期的目标跟踪方法大多属于生成式方法。例如,B. D. Lucas和T. Kanade等人[40]提出了基于原始强度值的整体模板。为了应对外观变化,基于子空间的跟踪方法应运而生[34]、[41]、[42]。作为生成方法中一个众所周知的分支,许多基于稀疏表示的跟踪方法也吸引了研究者的目光[35]、[43]-[45]。然而,生成方法的弱点是显而易见的。首先是大量的训练样本需要丰富的计算资源,难以满足无人机的实时性要求。然后,传统的生成方法忽略了背景信息,这可能有助于确保更鲁棒的跟踪。第三,生成方法通常假设物体的外观在一段时间内不会发生大的变化,而无人机跟踪场景中经常会出现外观变化。最近,判别法已经成为视觉跟踪界的主流。
2.1.2 判别式方法
与生成方法不同,鉴别方法(也称为检测跟踪方法)的核心思想是训练一个分类器,该分类器可以将跟踪对象与背景区分开来。
基于支持向量机(SVM)的方法属于判别方法,是视觉跟踪社区中最早的方法[37]、[46]-[48]。更具体地说,S. Avidan等人[37]从支持向量构建了金字塔,并考虑到大运动问题,在分类阶段使用了由粗到细的方法。Y. Bai等人[48]提出了在线拉普拉斯排序支持向量跟踪器,以稳健地定位对象。J. Ning等人[46]提出了一种简单而有效的双线性结构化支持向量机(DLSSVM)来提高其跟踪效率。由S. Hare等人提出的strike[47]由于其用于提供自适应跟踪的内核化结构化输出SVM,获得了很好的跟踪结果。虽然基于SVM的追踪器的性能是有希望的,但是大规模的训练样本将消耗大量的机器内存和计算时间,极大地限制了它们在无人机上的实时能力。
判别方法的另一个竞争分支是基于多实例学习(MIL)[49]-[52]。在[49]中,B. Babenko等人表明,与传统的监督学习方法相比,MIL能够以更少的参数调整实现更鲁棒的跟踪器。然而,MIL中的一个严重问题是样品标签的不稳定性。换句话说,如果训练集中有微小的变化(这在UA V跟踪情况下很常见),输出样本标签可能会经历剧烈的变化,最终导致鲁棒性较差。
值得一提的是,在以前的跟踪器中,K. Zhang等人提出了CT [53],它采用了一种简单而有效的外观方法,并在压缩域中使用贝叶斯分类器进行跟踪。CT的速度是可观的,然而,其鲁棒性和准确性逐渐落后于行列。
随着近年来卷积神经网络(CNN)的发展,应用CNN进行目标跟踪已经成为近年来的研究热点[54],我们称之为深度跟踪器。具体来说,这种方法通常训练CNN,特别是用于对象跟踪,离线使用大量标记的图像。
在跟踪对象时,对于一种深度跟踪器,对象模板和搜索区域同时输入到网络中,搜索区域中的对象位置和大小被直接端到端地预测,例如[38]、[55]-[60]。仅举几个例子,D. Held等人[38]使用了一种简单的前馈网络结构,这种网络结构效率惊人,但在无人机平台上仍然很难达到实时要求。除了过去的工作,L. Bertinetto等人新颖地引入了全卷积暹罗网络(SiamFC) [57]。该网络是完全端到端离线训练的,避免了其参数的在线更新。Q. Guo等人在SiamFC [57]的一般框架上构建了动态暹罗网络(DSiam) [58],其中快速变换学习模型可以有效地处理对象外观变化。不同于以前的无锚方式[57],[58],B. Li等人提出了暹罗区域提议网络(SiamRPN) [55],其中暹罗网络与快速R-CNN对象检测器[61]中提出的区域提议网络(RPN)相结合。在这个最早的基于锚点的连体网络中,传统的多尺度测试和在线微调可以被抛弃,这大大提高了它的速度,并解决了纵横比变化的问题。值得一提的是,M. Danelljan等人创造性地提出了ATOM [56],其中目标跟踪分为分类和估计两个阶段,不同于Siamese系列方法。第一阶段将对象从其背景中区分出来以进行粗略定位。针对精细包围盒估计,第二阶段创造性地利用IoU-net [62],该IoU-net使用大规模数据集进行离线训练,以最大化地面实况的交集(IoU)。其中,一些出色的追踪器是专门为长期追踪而设计的。最近,B. Yan等人[59]提出了一种基于略读和细读模块的新颖跟踪器。创新的细读模块估计目标状态,使跟踪器能够确定对象是否消失,从而决定是全局搜索还是局部搜索。在[63]中,K. Dai等人创造性地离线训练了一个元更新器,它学习二进制输出来通知跟踪器是否更新,极大地解决了长期跟踪中的更新问题。另一类利用CNN提取物体的深层特征进行模型训练和物体检测,例如[64]–[68]。
尽管近年来优秀的深度跟踪器取得了令人鼓舞的结果,但由于网络中卷积运算的高复杂性,它们通常在高性能GPU上实现,这是无人机无法支持的。此外,离线训练过程需要大量预处理的带注释的无人机跟踪图像,这些图像很难获得。此外,深层网络在面对难以察觉的噪音时容易失效[69]。因此,对于基于无人机的空中跟踪来说,这不是一种理想的方法。
在各种跟踪器中,基于DCF的跟踪器[39]、[66]、[70]-[73]因其效率和精度而脱颖而出,成为适合无人机跟踪的跟踪器。与端到端方法相比,基于DCF的方法[5]、[22]-[27]由于计算效率较高,更适用于UA V平台跟踪。图2显示了在UA VDT [20]基准测试中,基于DCF的跟踪器与深度跟踪器在成功率、精度和跟踪速度方面的性能。下一小节介绍基于DCF的方法的核心思想、主要步骤和基本框架。
2.2基于DCF跟踪器
2.2.1核心理念
基于DCF的跟踪器的核心思想是通过最小化标签之间的损失以及样本和过滤器之间的循环相关性来训练具有对搜索样本进行分类和评分的能力的过滤器。过滤器对搜索样本的分类结果可以使用下面的公式获得:
在这里 * 符号表示循环相关算子,g应该是信号之间的循环相关,例如在基于DCF的跟踪方法中,w表示滤波器,x表示搜索样本,g是响应图。为了加速循环卷积计算,使用离散傅立叶变换(DFT)在傅立叶域中计算循环相关,其可以表示为g = F(g),w = F(w),x = F(x)而相关性计算可以变成:
在这里表示逐元素乘法,上标*表示复共轭。作为所有基于DCF的跟踪器的共同亮点,通过用高效的逐元素乘法来代替该操作,结果可以大大降低计算复杂度。
2.2.2总体结构和主要步骤
一般来说,几乎所有基于DCF的跟踪器都遵循相似的结构,主要包括三个步骤:训练阶段、模型更新和检测阶段。如图3所示,在训练阶段,首先在当前对象中心附近裁剪训练图像块。其次,提取图像块的特征。然后,将提取的特征xf用作训练样本,通过求解回归方程得到第f帧wf中的滤波器。经过模型更新步骤后,获得滤波器模型wf,model。在检测阶段,在第(f + 1)帧,跟踪器首先裁剪以当前位置为中心的感兴趣区域。然后,通过在频域中计算滤波器模型wf、模型和ROI zf+1的特征之间的循环相关性来生成响应图,并且根据响应图的峰值来检测第(f+1)帧中的对象的新位置。当确定了对象的新位置时,跟踪器从新位置提取样本作为新的训练样本。因此,在接下来的帧中,依次执行训练阶段、模型更新和检测阶段。
各种过滤器的主要区别通常在于上面的三个步骤,这将在第3节中全面介绍。特别地,特征提取策略是所有相关滤波器的通用关键组件,其通常可以分为两个阵营:手工特征和深度特征。常用的手工特征包括灰度、梯度直方图(HOG) [74]、HOG的快速版本(fHOG) [75]、颜色名称(CN) [76]等。,其不仅容易获得,而且对外观变化也是鲁棒的。与手工制作的特征不同,深度特征(用于深度跟踪器)是从多层CNN中提取的,例如VGGNet [77]。深度特征通常比手工特征更具识别性,同时也给UA V平台带来了太多的计算负担。
2.2.3基本框架
基于上述结构,D. S. Bolme等人[78]首先提出训练滤波器w,使预设标签之间的误差平方和以及样本和滤波器之间的相关性最小化。由于[78]中的MOSSE跟踪器以简单的结构在跟踪性能方面表现出高FPS率,所以大量基于DCF并在[78]的基础上进行改进的跟踪器脱颖而出,其跟踪策略可以总结如下:
(1)关注岭回归,基于DCF的跟踪器的目标之一是在第f帧wf中训练滤波器,该滤波器使训练样本xf ∈ RN×D中的相关响应的平方误差E最小化,xf∈ RN×D是从∈RN上的图像片提取的特征,与它们的回归目标y ∈ RN相比,即:
分别表示第c个特征通道中的滤波器和训练样本,它们总共包含D个通道。λ是控制过拟合的正则化参数。
备注1:为了推导方便,本工作将某个特征通道的训练样本和滤波器考虑为一维,即大多数情况下xc,wc ∈ RN。在实现的代码中,样本和滤波器是具有长度和宽度的二维矩阵,导出的结果可以推广到二维。
为方便起见,下面只介绍第c通道的计算。最小化器具有封闭形式的分辨率:
(2)模型更新
通常,为了避免过拟合,用于检测的滤波器不直接取每帧的计算结果,而是通过线性插值获得。当引入学习率η时,基于DCF的跟踪器的f-th帧的大多数模型更新策略是使用线性插值更新滤波器模型w,模型如下:
(3)检测阶段
基于循环相关的概念,基于DCF的方法的检测策略也可以表达如下:
其中zf+1表示第(f+1)帧中ROI的特征,因此r(z)表示响应图。备注3:响应图的峰值相对于中心的位置变化表示物体的位移,可以计算得到第(f + 1)帧的物体位置。
到了这里,基于DCF的追踪器使用Eq。(9)对于滤波器训练,Eq。(10)用于模型更新和等式。(11)用于物体检测。由于方程中的大部分计算是基于元素的,基于DCF的跟踪器减少了存储和计算与岭回归问题的传统解法相比提高了几个数量级。基于DCF的方法将跟踪算法提高到了一个新的水平,在满足速度的同时,大大提高了鲁棒性和准确性,从而成为无人机跟踪领域的主流方法。
在基本框架上,发展了一系列应对各种挑战的方法。例如,M. Danelljan等人[79]提出了一种创造性的方法,可以更快地解决规模变化问题。H. K. Galoogahi等人[80]利用实数移位产生的负样本来包括更大的搜索区域和实数背景信息,并应用交替方向乘数法(ADMM)来求解滤波器等。特别是,近年来出现了许多为实时无人机跟踪场景设计的相关滤波跟踪器,例如[5]、[22]-[25]、[81],它们不仅性能优异,而且得到了广泛的认可。这种方法可以减少UA V上的计算负荷,从而降低功耗来延长宝贵的UA V的续航时间。剩余的计算资源可以用于高级控制算法、多传感器信息融合、路径规划等。因此,这些优势使其在UA V的平台上有了很大的进步,最终提升了无人机的整体性能。
2.3 CF机载无人机
一般来说,基于DCF的跟踪器优于大多数其他跟踪方法有三个原因:
1,适应性。DCF是一种在线学习方法。如前一小节所述,跟踪模型通常每帧更新一次,这使得跟踪器能够及时响应对象外观和尺度的变化。在无人机跟踪中,由于视角、高度和距离的频繁变化,基于DCF的跟踪器的在线更新和训练能力确保了其对物体外观变化的适应性,这已成为无人机的重要竞争力之一。
2,鲁棒性,基于DCF的方法属于鉴别方法。它不仅学习物体信息,还学习背景信息。滤波器的高分辨率使UAV即使在跟踪过程中遇到严重的环境变化、类似的物体干扰和其他不利条件时也能保持高跟踪鲁棒性。
3,效率。DCF中涉及的大多数运算是频域中的逐元素乘积,与大多数其他跟踪算法相比,它具有令人印象深刻的运行速度。DCF跟踪器的高速度不仅使UA V在单个CPU上实现了实时跟踪功能,还为UA V节省了电力。因此,冗余的计算能力可以用于处理其他进程,以拓宽UA V的使用场景。
基于上述优势,近年来的研究进一步提高了8相关滤波器的性能,将CF方法在无人机中的应用提高到了一个更高的水平[5]、[22]-[25]、[81]、[82]。具体而言,Y. Li等人[22]提出了一种在线自动和自适应调整时空正则化项(AutoTrack)的新方法,从而大大减少了调整预定义参数的工作量。Z. Huang等人[24]创造性地训练了一种滤波器,它可以学习抑制在检测阶段出现的异常(ARCF),从而产生良好的鲁棒性。C. Fu等人[5]在滤波器训练过程中应用了显著性检测,并利用了双重正则化(DRCF),从而突出了对象外观并获得了令人满意的结果。F. Lin等人[23]提出了一种新颖的双向不一致感知相关滤波器(BiCF ),它不仅能够向前跟踪目标,而且能够定位前一帧中的目标,显示了其在适应性和鲁棒性方面的优势。F. Li等人[82]关注于训练样本,他们提出了一种新颖的基于时隙的提取方法来优化训练样本的质量。
如上所述,作为一种高效和鲁棒的鉴别性目标跟踪策略,基于DCF的方法具有出色的性能,并成为无人机跟踪领域的主流方法。在下一节中,详细总结了各种基于DCF的方法的贡献。
3,基于DCF方法的发展
尽管大多数基于DCF的跟踪器的总体结构是相同的,但是每个跟踪器都有其特殊的优先级和贡献。本节详细介绍了23个基于DCF的跟踪器的创造性贡献(有些在同一小节中,即fDSST跟踪器和DSST跟踪器)。总的来说,如图4所示,这些年来,不同的追踪器针对不同的问题提出了他们的创新,并取得了越来越好的结果。通常,本节介绍的跟踪器分为基础、比例估计、特征表示、边界效应、时间一致性和额外类型。为了方便参考,表1列出了本书中使用的大多数符号。表2显示了所有最新的基于DCF的跟踪器,包括它们的地点、使用的功能和其他相应类别的特征。
3.1 基础
MOSSE跟踪器[78]、CSK [86]和KCF跟踪器[39]被认为是基于DCF方法的基石,他们构建了DCF的基本框架并提出了其核心思想
3.1.1 MOSSE tracker
D. S. Bolme等人提出的MOSSE追踪器[78]被认为是第一个利用CF的追踪器,其目的是训练一个滤波器,使用以下回归方程使循环相关输出和设计标签之间的平方误差最小化:
由于其简单性,MOSSE算法实现了每秒数百帧的引人注目的跟踪速度。MOSSE追踪器很难适应大范围的变化,其单通道灰度功能也不够强大。此外,MOSSE跟踪器没有考虑样本在高维空间中的线性可分性。
3.1.2 CSK tracker
以前优秀的跟踪器,如SVM跟踪器[37],使用稀疏采样来获得训练样本。具体而言,在搜索区域中的当前对象中心附近随机生成与对象大小相同的几个候选框。这种方法一方面不能提取足够的样本,另一方面候选盒之间的重叠导致效率低下。CSK [86]追踪器首次解释了循环相关?CF采用的是一种数学意义上的密集采样,并引入了循环矩阵来计算循环相关。这种策略首先提取图像块的单通道特征作为基本样本x = [x1] ∈ RN,并使用等式对其进行循环移位。(5)获得循环数据矩阵Eq。(7)作为训练样本。
除了密集采样和循环矩阵,CSK跟踪器还改进了MOSSE跟踪器中的回归方程。改进后的等式可以表示为等式的单通道形式。(3),这被称为正则化最小二乘(RLS)。所提出的正则化项可以防止滤波器w过拟合,这被证明比MOSSE跟踪器获得了更好的结果。
除此之外,CSK算法的另一个亮点是核技巧的应用,它将分类过程映射到高维特征空间以获得更好的性能。使用核技巧,w可以写成映射函数φ(·)可以将数据映射到高维特征空间,样本xi来自使用循环移位矩阵P的原始样本x,例如,x1 = P0x。带内核的RLS(KRLS)有一个简单的封闭解:
其中K是元素为Kij = k(xi,xj)的核矩阵。内核k被定义为:
k(xi,xj) =< φ(xi),φ(xj)>
其中<,>表示点积
备注5:虽然J. F. Henriques等人使用CSK跟踪器获得了惊人的跟踪结果,但该算法仍然使用光照强度特征,鲁棒性较差.
3.1.3 KCF tracker
作为大多数后续基于dcfb的跟踪器的基本框架,KCF跟踪器的主要贡献是J. F. Henriques等人[39]将他们先前的CSK跟踪器[86]的工作公式化,将其核心思想集成到CF跟踪算法中。
此外,KCF跟踪器处理了多通道特征表示问题,例如fHOG [75],大大提高了跟踪器的性能。
首先,KCF算法提出了用于滤波器训练的非线性回归方程:
假设训练样本是单一特征通道,即x ∈ RN×1。通过采用核技巧,他们的滤波器参数α的解首先与CSK跟踪器一样被获得,即方程。(16).证明核矩阵K是循环的,这是等式的一个更快的版本。(16)建议由:
KCF跟踪器将CSK跟踪器中使用的核心技巧公式化为基于DCF的跟踪结构,并提出了多通道样本训练策略,从而成为大多数基于DCF的跟踪器的基本框架.
3.2 尺度评估
上述三种基本跟踪器[39]、[78]、[86]都可以实现目标定位,但它们在跟踪过程中采用了单一尺度,即假设目标的尺度是固定的。考虑到现实跟踪中目标尺度的变化,如何准确有效地估计目标尺度成为一个亟待解决的问题。
3.2.1 SAMF tracker
SAMF跟踪器的主要创造性贡献是提出了一种有效的尺度估计方法。在SAMF算法中,假设物体模板的原始固定大小为sT = (w,h),其中w,h分别代表搜索区域的宽度和高度。规模池可以定义为S = {sisT|si = {s1,s2,...,sk}}。在检测阶段,首先裁剪尺度池中k个不同大小的图像块。提取了尺寸调整后的图像补片{zs1,zs2,...,zsk}的特征后,SAMF跟踪器可以通过求解以下优化问题来确定最佳尺度si:
此外,峰值的位置可以用于估计物体的新位置。因此,SAMF跟踪器同时实现了位置和尺度预测。
备注6:考虑到每帧提取的新样本具有不同的尺度,SAMF跟踪器首先将样本双线性插值转换为相同的大小,然后使用与KCF跟踪器等式(12)和(26)相同的线性插值模板更新策略。
3.2.2 DSST & fDSST tracker
SAMF跟踪器[83]中给出的缩放池算法可以应对缩放变化,但其运算速度和鲁棒性还有进一步改进的空间。M. Danelljan等人对规模估计算法做出了创新性的贡献。
在[84]中,训练回归方程采用了KCF跟踪器[39]中的岭回归,即方程。(18),并应用线性核,即等式。(25).他们的解决方案是:
那么,[84]中DSST跟踪器的核心思想就是训练两个滤波器,即平移滤波器wtrans和比例滤波器wscale。当一个新的帧到达时,首先使用平移滤波器搜索新的对象位置,然后在新的中心附近提取不同尺度的样本[zs1,zs2,...,zsk]。各种标度中的样本用于标度滤波器来预测适当的标度。然后,平移过滤器使用以预测位置为中心的样本进行训练,而比例过滤器使用以预测比例为中心的不同比例的样本进行训练。这样的规模评估方法结合了鲁棒性和速度。
备注7:在实现的代码中,翻译过滤器采用等式的提升的二维结果。(29),其中某个特征通道中的训练样本和滤波器是二维的。不同的是,DSST跟踪器将二维矩阵拉成一维向量来训练一维尺度滤波器,采用等式。(29)直接。这种策略大大提高了DSST跟踪器的处理速度。
DSST跟踪器实现快速比例估计的另一个原因是,比例滤波器根据相对较小的对象的大小来裁剪面片,从而使特征提取更有效。
在DSST跟踪器的基础上,M. Danelljan进一步提出了一个更快的版本,称为fDSST跟踪器[79],它提高了跟踪器的性能,同时获得了更高的跟踪速度。这个策略可以概括为三点。首先,fDSST跟踪器使用子网格插值来减少训练样本和搜索样本的大小。其次,fDSST跟踪器对样本的特征进行PCA(类似于CN跟踪器中CN的主成分分析[87]),实现特征降维。最后,通过将特征总数减少到PCA降维后的特征数来压缩尺度滤波器,大大削减了冗余信息。在上述三种加速策略下,fDSST跟踪器可以扩大其搜索区域以获得更好的跟踪性能。
3.3 特征表示
为了使跟踪器具有更好的鲁棒性和良好的辨别能力,学习充分有效的目标特征是至关重要的。跟踪者引入了这一部分[87]-[89]提出了多种新的方法来学习和有效利用表情特征,从而将DCF算法提升到一个新的水平。
3.3.1 CN tracker
由M. Danelljan等人提出的CN跟踪器[87]在CSK跟踪器[86]的基础上提出了创新的颜色特征,这是另一个强大的手工制作的特征。此外,CN tracker还解决了多通道训练问题。
颜色属性[76],又称颜色名(CN),直接表示人类定义的11种颜色语言标签。CN特征首先将RGB图像中每个通道的值映射到11维颜色名称概率,其总和等于1。然后,将11维颜色空间映射到10维正交基子空间,从而同时实现降维和归一化(CN跟踪器)。
然而,CSK跟踪器的计算复杂度和所用特征的维数之间存在线性关系。为了减少计算量以保证高速度,CN跟踪器进一步提出了低维自适应颜色属性,其中对10维特征进行主成分分析(PCA)以选择具有最多信息的两个维度(每帧的分析结果是自适应的)(CN 2跟踪器)。
除了提出颜色特征,CN追踪器[87]的另一个改进是它在训练过程中考虑了先前帧中的信息,即:
备注8:CN功能不仅提高了原始CSK算法的性能,还将基于dcfb的跟踪器带到了一个新的水平,使它们在具有挑战性的场景下更加鲁棒。
3.3.2 staple tracker
用于训练滤波器的样本可以是各种特征,如fHOG [75],CN [76]和颜色直方图等。在Staple tracker [88]中,L. Bertinetto等人发现不同的特征在不同的跟踪场景下具有不同的优势。例如,fHOG特征在光照变化下有很好的表达效果,而颜色直方图在变形和旋转下更强大。基于这一发现,如何在跟踪中融合两种互补的特征成为Staple算法研究的重点。
在[88]中,L. Bertinetto等人提出了一种互补融合跟踪方法,该方法同时使用DSST跟踪器的主要公式,即等式(18)、(25),基于fHOG特征,即等式(29)训练模板过滤器w。和另一个岭回归方程来训练直方图权重h:
3.3.3 MCCT-H tracker
在UA V上实现实时的基于DCF的跟踪器所使用的特性可以概括为:fHOG [75]和CN [76]等。现在对多道特征的处理方法主要有:(1)直接逐层叠加,如KCF [39],SAMF [83],DSST跟踪器[84]等。;(2)使用PCA来降低维数,如ECO追踪器[95]、CN追踪器[87]和fDSST追踪器[79]。然而,这些方法有明显的局限性。每个特征通道在不同帧下的稳定性和可靠性通常是不相等的,并且可靠特征的数量不一定是恒定的。因此,按层直接叠加(也是平行追踪)和使用PCA降维都可能导致信息冗余、丢失,甚至不可靠。
基于上述考虑,N. Wang等人提出了多线索联合跟踪方案(MCCT) [89],引入特征池和专家池(特征池中特征的不同组合),选择最可靠的专家作为不同帧中的特征进行跟踪,与以往的融合方法相比取得了更好的效果。
在MCCT追踪器中,DSST追踪器的基本训练结构[84],Eq。(18),Eq。(25),和Eq。(29),被采纳。创新性地引入了特征池和专家库。特征池包括3种类型的特征{低、中、高} ,对应于{fHOG1,fHOG2,CN} (MCCT-H)。
3.4 边界效应
基于DCF的跟踪器使用的循环样本有一个巨大的缺点,即边界效应。前述滤波器通常使用余弦窗来削弱边界效应,这只能在一定程度上减少边界效应。这种方法在很大程度上不能解决以边界为中心的循环样本的响应值不准确的问题。在这种情况下,跟踪器如KCF跟踪器[39]和DSST跟踪器[84]只对原始物体大小的2-3倍进行采样。为了解决这个问题,优秀的跟踪器[71]、[80]、[90]、[91]能够在减轻边界效应的同时学习足够的负样本,从而确保更好的跟踪鲁棒性。
3.4.1 SRDCF & SRDCFdecon tracker
SRDCF跟踪器[71]最有利的亮点是在滤波器训练过程中引入了空间惩罚权重。他们改进的第T帧wT中滤波器的主训练公式是:
其中ω是给定的正则化权重,它在远离中心点处具有较大的值,在靠近中心点处具有较小的值。因此,它可以增加滤波器中心的权重,使得样本的更可靠的中心部分对响应图具有更高的影响,并且屏蔽远离中心的噪声或不可靠的负样本。θf表示第f帧中训练样本的权重,wc ∈ RN表示滤波器w的第c个特征通道 。
SRDCF跟踪器是相关滤波器跟踪器发展中的一个里程碑。它用空间罚项补充了KCF岭回归主公式,并用高斯-塞德尔迭代法求解。实验证实,SRDCF算法使滤波器能够学习更多的负样本,从而提高了跟踪的鲁棒性,这已经成为后续CF跟踪器的流行基线。
备注10:此外,SRDCF跟踪器性能的提高也是由于添加了所有过去的样本,这也降低了它们的计算速度。
M. Danelljan在SRDCF跟踪器的基础上进一步提出了SRDCF decon跟踪器[90]。SRDCF decon跟踪器采用了与SRDCF相似的主要公式:
不同的是,SRDCF decon算法的主要公式是二元回归,即filter w和weight θ。因此,对于SRDCF decon,在先前T帧中用于滤波器训练的样本的权重θ不再是固定的,而是根据回归方程动态求解。因此,权值的在线调整可以连续地影响先前的T帧,这确保了具有高置信度的帧的影响更大,并且减轻了受污染样本的影响。
3.4.2 CSR-DCF tracker
注意等式中的空间惩罚ω。(40)是固定的,而每个像素的重要性不一定服从从中间到周围的固定的均匀递减。此外,目标样本的每个特征层的可靠性也是不同的,换句话说,先前的跟踪方法学习了一些可能干扰跟踪的虚假信息。
以确保过滤器学习更准确的具有不规则形状的物体信息,并削弱不可靠的特征通道。A. Lukezic等人对CSR-DCF tracker [91]中的SRDCF tracker [90]进行了出色的改进,将固定的空间惩罚项ω改为逐像素的置信度图m,并引入信道置信度得分来修改生成的响应图。
在CSR-DCF追踪器中,A. Lukezic等人引入了空间置信度图m,其中每个元素mi ∈ m的值代表每个像素是对象的概率。计算方法分为三步:先验层、颜色模型下的贝叶斯概率、Epanechnikov核:
3.4.3 BACF tracker
H. Kiani Galooghi等人提出的背景感知相关滤波器(BACF)跟踪器[92]也使滤波器能够学习丰富的背景信息,同时减少边界效应。
备注11:BACF跟踪器使用裁剪矩阵将大ROI中的样本自动裁剪成多个与对象大小相同的小样本。更具体地说,这些小样本是由循环移位加裁剪算子生成的,它们都是ROI的子区域。这使得引入更多的背景样本而不引入太多的边界效应成为可能。
在[92]中,作者首先介绍了裁剪矩阵C ∈ RN×L,它可以在样本xc ∈ RL的中心区域选择和提取固定大小RN的像素,循环移位算子Pj在KCF跟踪器中也是如此[39]。因此,CxcPj可以被视为循环样本xj的中心区域。在不同的循环样本中,这样的中心区域对应正样本或负样本,与期望高斯标签y(j)对应位置值的大小一致。请注意,由于L >> N,BACF跟踪器中使用的样本远远大于其他跟踪器,确保了大量的负样本学习。基于上述想法,BACF跟踪者提出了他们的主要训练公式为:
由于其拥有惊人的跟踪速度和令人印象深刻的跟踪性能,BACF跟踪器的核心架构已成为相关滤波跟踪历史上的又一个里程碑。从那以后,许多基于dcfb的跟踪器选择了BACF跟踪器作为它们的基线,并做出了更多创新的贡献。
3.5 时间一致性
目标在跟踪过程中的外观有时会经历短期的较大变化,如部分遮挡、相似目标干扰等。这些跟踪场景通常会导致滤波器性能下降,从而导致后续跟踪失败。为了确保响应图[22]、[24]的滤波器[66]的时间一致性,是应对意外突然退化的有效方法。
3.5.1 STRCF tracker
F.李等人提出了时空正则化相关滤波器(STRCF) [66],它在SRDCF跟踪器[90]以前的主要训练公式基础上引入了时间正则项,即Eq。(40)在SRDCF跟踪器的基础上,抑制过度的短期物体外观变化,获得更稳定的跟踪效果:
根据被动-主动算法表示时间正则化项。STRCF跟踪器使用ADMM迭代来有效地求解方程(49)。
备注12:由于引入了时间正则项,STRCF的主训练公式不再需要之前所有T帧的信息,大大减少了训练所需的内存,相对于SRDCF跟踪器大大提高了计算速度。
实验证明,STRCF算法中的滤波器具有很强的时间稳定性。在对象经历快速外观变化(例如快速运动和光照变化)的场景下,它尤其鲁棒。PA算法下的时间正则项也很有用,可以进一步参考。
3.5.2 ARCF-H & ARCF-HC tracker
基于前述丰富的基于DCF的跟踪研究,专门用于无人机跟踪的基于DCF的跟踪器终于登上了舞台[24],[22]。
现有的基于DCF的跟踪器在无人机跟踪环境中的一个巨大缺点是抗干扰能力差。第一,UA V跟踪场景比较复杂,通常会遇到较大的环境干扰,比如光照变化、相似物体等。,影响跟踪结果。其次,以往的相关滤波跟踪器通常会扩大搜索区域并施加空间惩罚项来解决边界效应,这将不可避免地产生更多的背景信息,从而更容易引入环境噪声。
为了解决这一问题,提高相关滤波跟踪器在无人机机载背景干扰严重的跟踪环境中的性能,Z. Huang等人提出了畸变抑制相关滤波算法(ARCF) [24]。
ARCF跟踪器的核心思想是利用连续响应图的变异来抑制和学习环境噪声。
备注13:不同于以往利用当前响应图的可靠性来抑制后续帧中相应位置的方法,如CSRDCF跟踪器[91],ARCF跟踪器首次将响应图畸变引入训练公式,抑制了训练阶段可能出现的噪声,并取得了相当可观的效果。
其中,第一项中的矩阵C是BACF跟踪器[92]中的裁剪矩阵,第二项是与KCF跟踪器[39]相同的常规项,第三项旨在抑制第f帧相对于第f1帧可能出现的响应图异常。最后,ARCF跟踪器采用ADMM迭代算法求解方程。(51).
实验证实,在大多数无人机跟踪基准上,ARCF跟踪器对响应图异常的抑制效果非常显著。对于频繁出现噪音的场景,如快速移动和遮挡,ARCF跟踪器在最先进的技术中脱颖而出。尤其是在小目标跟踪场景下。由于物体分辨率低,信息不足,更容易因背景环境干扰而出现畸变。ARCF跟踪器在这种情况下表现出了出色的性能,已经成为无人机空中跟踪的首选算法之一。
3.5.3 AutoTrack tracker
另一个众所周知的专门用于UAV跟踪的相关滤波跟踪器使用STRCF跟踪器[66]作为其基线。
虽然STRCF跟踪器的稳定性和鲁棒性都很优秀,但其时空正则项引入了太多需要手动设置的参数,如空间惩罚ω和时间参数。一方面,在实验过程中,这些参数通常需要花费很多时间来调整以找到最佳的一个。另一方面,所确定的参数不能总是在每个序列中表现良好。
基于上述考虑,Y. Li等人提出了一种基于DCF的具有自动时空正则化(AutoTrack)的跟踪器[22],其使用局部响应图和全局响应图来分别自动地动态调整空间权重和时间权重,这对于不同的序列是高度可适应的,并且同时是高效的。
其中,CN用于裁剪表示对象模板尺寸的中心区域RN,δ是旨在调整权重的常数,ω是与SRDCF跟踪器中相同的用于解决边界效应的固定空间惩罚项。因此,可以计算根据局部响应图的自动空间正则化项,其中值越高,像素越不可靠,导致滤波器w中的权重越小.
同时,作者将自动时态参数定义为:
大量的实验表明,AutoTarck跟踪器对于跟踪物体发生外观变化(如光照变化、视点变化等)的场景非常鲁棒。
3.6 额外类型
一些基于DCF的追踪器为长期追踪[93]、计算加速[95]、背景抑制[96]和计算技巧[85]提供了额外的解决方案,为基于DCF的追踪社区做出了突出贡献。
3.6.1 LCT tracker
与短期跟踪相比,长期跟踪通常更具挑战性。由于更极端的挑战,如完全遮挡和视野外,基于DCF的跟踪器在长期跟踪场景中更容易遇到跟踪失败。为了解决这个问题,C. Ma等人在LCT跟踪器中提出了一种创新的跟踪思想[93]。LCT追踪器中的想法类似于之前著名的作品TLD追踪器[97]。在TLD跟踪器中,长期跟踪分为跟踪学习和检测阶段。跟踪器逐帧学习,确定物体在每一帧中的位置,而检测器学习物体较大的外观变化,在跟踪失败时全局搜索物体。
第一个创新是在LCT跟踪器中引入了两个训练模型,即时间回归模型Rc和对象外观回归Rt。其中,Rc同时使用对象和周围上下文来训练模型,这与KCF跟踪器相同[39]。
作为补救措施,Rt的主要目的是预测对象的当前状态,并做出适当的尺度估计,这类似于DSST跟踪器中的尺度滤波器[84]。所以Rt只需要学习物体的信息,只在对应的响应图r(z)的峰值超过固定阈值τ(表示物体状态可靠)时进行更新。
当响应图的峰值max(r(z))时,LCT跟踪器判断跟踪失败发生。然后开启随机蕨重新检测器搜索物体,只有当对应响应图的峰值超过阈值时才更新Rt,以保证Rt的可靠性。注意,其他检测跟踪方法通常逐帧进行重新检测,而LCT跟踪器只有在跟踪失败时才重新检测,这样既保证了速度,又保证了鲁棒性。
后来,C. Ma等人进一步提出了LCT2.0追踪器[94],其中LCT追踪器中的随机蕨分类器被SVM分类器取代,并应用局部强度直方图作为附加表达式。
3.6.2 ECO-HC tracker
虽然前期工作[72]的成果相当可观,但它有两个严重的问题:一是由于计算量过大导致运算速度慢。第二,太多的参数设置,例如,太多的特征尺寸,涉及太多的帧,使得跟踪器易于过拟合。因此,在他们之前的工作[72]的基础上,M. Danelljan等人进一步提出了一种更快、更鲁棒的ECO跟踪器[95],它将相关滤波跟踪方法的性能提高到了一个新的水平。注意,这里我们只讨论使用手工制作特征的生态跟踪器,而不是CNN特征,即生态HC。
在[95]中,M. Danelljan等人首先分析了C-COT跟踪器的时间复杂度,可以表示为O(NCGDT K)。NCG表示共轭梯度迭代的次数,D表示训练样本的特征通道的数量,T表示操作中涉及的总帧数,K表示每个滤波器通道的傅立叶系数的平均数。在此基础上,提出了三种降低计算复杂度的方法。
首先,ECO追踪器减少了特征维数以提高速度。原始的D维降低为E维样本,引入矩阵G表示原始样本如下:
其中,第f帧xf中的先前样本由高斯均值f代替,权重θf由πf代替,并且总帧数T减少到V
最后,在ECO算法中,滤波器模型每5帧更新一次,而不是逐帧更新。因此,生态跟踪器获得了更好的性能和惊人的速度。
3.6.3 CACF tracker
虽然SRDCF跟踪器[90]中的空间惩罚可以抑制背景噪声,但它利用固定的全局惩罚,即人为减少滤波器外围的权重来抑制背景响应。而在提高滤波器鉴别能力的手段中,特别是学习背景信息通常能取得更好的效果。为了学习上下文信息,M. Mueller等人提出了上下文感知相关滤波器跟踪器(CACF) [96]。
在CACF跟踪器中,在训练阶段,作者改变了原来的岭回归公式Eq。(3)至:
备注14:创新性地,为了获得类似于岭回归方程的结构,作者进一步推导出主公式的变形为:
实验表明,与原始跟踪器相比,在大多数场景中,在CACF跟踪器中使用contextaware算法的跟踪器,即staple-CA跟踪器和SAMF CA跟踪器,可以更加鲁棒。
备注15:虽然CACF跟踪器[96]可以使滤波器学习到物体边界框附近的背景信息,但它有一个明显的缺点:CACF跟踪器学习到的背景信息是物体周围相对位置固定的4个背景框,不足以让跟踪器应对复杂场景。
3.6.4 KCC tracker
KCF跟踪器[39]中使用的核技巧可以将样本x映射到高维空间进行分割,从而对噪声和干扰物有相对较好的屏蔽效果。然而,KCF跟踪器有两个明显的局限性:(1)由于等式的应用。(9)训练样本必须是循环的;(2)使用的核函数kxx0也需要对样本中的每个像素具有相同的权重。
在追踪器[85]中,C. Wang等人发掘了核方法的巨大潜力,它不仅消除了追踪器中的两个局限性,而且还将核方法进一步扩展到了对缩放和旋转(不仅仅是平移)等变化的计算,并被证明比追踪器中的缩放池[83]和追踪器中的缩放过滤器[84]更稳健。
备注16:由于该结果是在没有任何定理或限制的情况下得出的,因此理论上可以预测x的任何仿射变换,例如平移(KTC追踪器)、比例变化(KSC追踪器)和旋转(KRC追踪器)以及应用任何核函数。
4, 实验评估和分析
本节展示了实验结果和分析,分为五小节。第4.1小节首先介绍了一些实现信息,包括目标跟踪的常用评估指标、实验平台、参数设置和实验中使用的基准。其次,基于DCF的跟踪器的总体性能和跟踪结果的综合分析在第4.2小节中给出。此外,第4.3小节提出了重新定义的无人机跟踪属性,并按属性分析了基于DCF的跟踪器的性能。然后,在第4.4小节中,在第四小节中补充了基于DCF的跟踪器(仅使用手工制作的特征)相对于深度跟踪器的性能。最后,在综合实验的基础上,我们总结了4.5小节中基于DCF的UA V跟踪方法中没有很好解决的典型失败案例和挑战。
4.1 实施信息
在进入实验评估和分析之前,本小节首先给出一些实验实现信息,即实验中用于跟踪器评估的两个度量标准、所有实验扩展的实验平台、实现代码中的参数设置以及实验中使用的UA V基准
4.1.1评估指标
这里介绍了目标跟踪中常用的两个权威和客观的评估指标,即基于一遍评估(OPE)的中心位置误差(CLE)和重叠分数(OS)[28]。
OPE是指用地面实况中对象的位置和大小初始化第一帧,然后运行跟踪算法以获得后续帧中的边界框,其可用于绘制精度图和成功率图.
为了获得精确的绘图,需要在每个帧中计算CLE,该帧由跟踪器估计的边界框的中心点和地面实况的中心点之间的距离定义,如图5所示。通过计算序列中CLE小于给定阈值的所有视频帧的百分比,获得一对精度分数和阈值。对于整个基准的评估,可以通过对所有序列的分数进行平均来产生最终的精度分数。不同的阈值导致不同的百分比,因此可以获得精确的曲线图,如图6所示。在对所有追踪器的最终排序的一般评估(也在该实验中)期间,阈值被设置为20像素,即,在CLE = 20像素时的距离精度(DP)。
对于成功率图,首先在每一帧中计算OS,如图5所示。利用通过跟踪算法获得的边界框(记录为矩形a),以及由地面实况给出的框(记录为矩形b),OS可以通过下式获得:
其中|. |表示该区域的像素数.当一帧的OS大于设定的阈值时,该帧被认为是成功的,总成功帧数占所有帧数的百分比就是一个阈值下的成功率。OS的值的范围是从0到1,因此可以绘制曲线图,这是图6中的成功率图。在一般评价中(也是在本实验中),计算曲线下面积(AUC)作为跟踪者的排名标准。为了便于理解,图5用图形显示了两个评估指标。
4.1.2实验平台
本文中的大规模评估实验是在MATLAB R2019a上扩展的。主要硬件包括一个英特尔酷睿i7-8700K CPU、32GB内存和一个英伟达RTX 2080 GPU。
4.1.3参数设置
为了保证实验的公正性和客观性,所有被评测的追踪器都保持了官方的初始参数。对于使用各种特征的追踪器,例如生态追踪器[95]、ARCF追踪器[24],实验中使用的具体特征被记录下来,例如,ARCF-H追踪器仅使用fHOG特征[75],而ARCF-HC追踪器使用fHOG、CN [76]和灰度。
4.1.4基准
测试实验共使用了六个知名的权威UA V跟踪基准,分别是UA V123、UA V20L、UA V123@10fps [19]、UA VDT [20]、DTB70 [18]和VisDrone2019-SOT [21]。这里逐一介绍每个基准的特点。
M. Mueller等人[19]编制了基准UA V123,它包含123个由低空航拍视角捕获的完全注释的高清视频序列,总共包括112,578帧,覆盖了各种各样的场景和对象。作为UA V123的子集,UA V20L是专为长期跟踪而设计的,包括20个最长的序列。为了研究相机捕捉速度对跟踪性能的影响,M. Mueller还将UA V123基准时间下采样到10fps,其中大多数序列最初以30FPS提供,因此创建了10 FPS的UA V123基准。注意,由于帧间隔变大,对象在帧之间的位置变化变大,增加了精确跟踪的难度。
DTB70由70个视频和总共15,777个帧组成,由S. Li等人构建[18]。DTB70的亮点是他们对严重的相机运动问题的关注,主要集中在跟踪人和车辆上。
D. Du等人构建的UA VDT [20]包含50个序列,37,084帧(这里指的是他们的单目标跟踪(SOT)任务)。UA VDT主要关注各种新挑战下的汽车,例如各种天气条件、飞行高度和摄像机视野。
对于VisDrone2019-SOT [21],VisDrone2019-SOT-test-dev、VisDrone2019-SOT-val和VisDrone2019-SOT-train被组合成总共132个序列和109,909个帧。该基准测试来自VisDrone2019单目标跟踪挑战赛,该挑战赛专注于评估无人机上的单目标跟踪算法,并与国际计算机视觉大会(ICCV2019)同期举行。
表3显示了序列的数量、每个序列中的最小、最大、平均帧数以及6个基准中的总帧数。
4.2基于DCF的跟踪器的总体性能
为了验证基于DCF的跟踪器在UA V跟踪场景中的性能,选择了21个著名的基于DCF的跟踪器,仅使用手工制作的特征,即AutoTrack [22]、ARCF-H [24]、ARCF-HC [24]、STRCF [66]、CSR-DCF [91]、ECO-HC [95]、MCCT-H [89]、BACF [92]、DSST [84]、fDSST [79]、SAMF [83]、SDRCF [71]、SDRCFdecon他们的跟踪结果是在相同的平台和相同的六个权威基准[19]、[20]、[18]、[21]上获得的。结果表明,基于DCF的跟踪器不仅具有惊人的精度和鲁棒性,而且许多跟踪器在单个CPU上也具有实时跟踪速度,是水下机器人跟踪的理想算法。
如图6所示,不同基准下的跟踪器性能通常是不同的。AutoTrack [22]在DTB70下表现最好,其次是ARCF-HC。在UA V123下,ECO-HC表现突出,AutoTrack次之。在UA VDT中,ARCF慧聪占据首位,AutoTrack紧随其后。可以看出,随着近年来研究的发展,基于dcfb的跟踪器的性能已经逐步提高。表4显示了所有最先进的手工制作的基于DCF(其中大多数在UA V平台上实现了实时)的跟踪器的DP、AUC和速度比较。
图6。基于DCF的手工跟踪器在(a) UAVDT [20]、( b) UAV123 [19]、( c) DTB70 [18]、( d) UAV123@10fps [19]、( e) UAV20L [19]和(f) Visdrone2019-SOT [21]上的总体性能。精度图中的排序标准是CLE = 20像素下的精度,成功率图中的标准是AUC(曲线下面积)。为了更好的显示效果,请参考本文的电子版。
从表4中的结果可以看出,早期的基于DCF的跟踪器,例如KCF跟踪器[39]、CN跟踪器[87],由于其简单性,通常具有高跟踪速度,但是这导致了较差的准确性和鲁棒性。随着基于DCF的跟踪器的发展,当早期基于DCF的跟踪器的各种问题和缺点,例如缺乏尺度估计,被关注、解决并被逐一进一步改进时,基于DCF的方法的跟踪结果也得到显著增强。举几个例子,在DSST [84]跟踪器和SAMF [83]跟踪器解决了KCF跟踪器的尺度估计问题[39]之后,跟踪精度和鲁棒性得到了提高。CACF追踪器(Staple CA) [96]增加了上下文感知策略后,性能比原来的追踪器Staple [88]大大提高。使用STRCF跟踪器[66]作为基线的AutoTrack跟踪器[22]通过自动和自适应更新的时空正则化项,在大多数基准中实现了比STRCF跟踪器更好的结果。
在所有使用手工特征的基于DCF的跟踪器中,在未调整参数的情况下,三个跟踪器,即AutoTrack跟踪器[22]、ARCF-HC跟踪器[24]和ECO-HC跟踪器[95]在六个基准中在成功率(AUC)和精度(DP)方面比其他跟踪器获得了更多的前三值(在表4中用特殊颜色,红色、绿色和蓝色标出)。这表明即使在固定参数的情况下,它们在各种复杂场景下仍然具有很好的通用性,进一步证明了它们在现实世界无人机跟踪中的实用性。
4.3无人机特殊属性的性能分析
在目标跟踪中,为了评估跟踪器在各种具有挑战性的场景中的性能,每个基准都提出了一系列特殊的跟踪场景,称为属性。定义的属性在每个序列中被指出,无论是否有,用于进一步比较特殊属性下的跟踪器。表5中的属性全名如下所列:快速运动(FM)、相机运动(CM)、相机旋转(CR)、完全遮挡(FOC)、遮挡(OCC)、部分遮挡(POC)、大遮挡(LO)、光照变化(IV)、低分辨率(LR)、小物体(SO)、视点变化(VC)。
为了更好地说明基于DCF的跟踪器在响应UA V跟踪场景中的不同挑战方面的性能,六个基准最常遇到的跟踪场景被总结为快速移动(FM)、视点变化(VC)、低分辨率(LR)、遮挡(OCC)和光照变化(IV)。
每个基准的原始属性首先被映射到五个属性,并且每个序列被重新标记。对于UAV123,UAV123@10fps,UAV20L,和Visdrone2019-SOT,它们的原始属性是一样的。它们的相机运动和视点变化的属性被分类为VC。原始属性快速运动、低分辨率和照明变化与本作品中的相同,即FM、LR和IV。部分闭塞和完全闭塞被分类为OCC。对于DTB70,其原始属性快速相机运动被分类为VC,遮挡在本工作中被分类为OCC。对于UAVDT,它们的属性“相机旋转”、“小对象”、“光照变化”和“大遮挡”分别对应于VC、LR、IV和OCC。表5显示了六个基准中的原始属性和新属性之间的对应关系,以及每个基准对每个新属性的序列号贡献。
基于上述工作,每个跟踪器在新属性下的跟踪结果也被绘制成包含成功率图和精度图的十个图,如图7所示。注意,采用的计算方法是按序列平均,即统计六个基准中所有序列中包含特定属性的序列,所涉及序列结果的算术平均值作为最终结果。图7显示,追踪器在特定属性下的表现明显差于各基准中的整体表现,各追踪器擅长的挑战也各不相同。总体而言,ARCF-HC追踪器[24]在FM和VC方面表现最好,AutoTrack追踪器[22]在VC和IV方面表现良好,ECO-HC [95]追踪器在闭塞问题上排名第一。
图7。在不同的属性,FM,LR,VC,OCC和IV下测试每个追踪器的追踪结果。属性后面的数字表示具有特定属性的序列的总数,例如,六个基准中具有FM属性的序列的总数是69。精度图中的排序标准是CLE = 20像素下的精度(DP),成功率图中的标准是曲线下面积(AUC)。为了更好的显示效果,请参考本文的电子版。
图8显示了三种最佳性能跟踪器在不同挑战下的能力比较,即, ARCF-HC跟踪器[24]、AutoTrack跟踪器[22]和ECOHC跟踪器[95]。就每个属性而言,OCC和FM两个属性下的三个跟踪器的性能都比IV、LR和VC差,说明遮挡和快速运动两大跟踪场景目前在UA V跟踪中更具挑战性。就三种追踪器而言,在成功率的比较中,三者在总体和VC上的表现相似,而ECO追踪器[95]在IV、LR和OCC上成功率更高,并且ARCF-HC跟踪器在OCC上更好。与ECO-HC追踪器相比,ARCF-HC追踪器和AutoTrack追踪器在LR方面都做得更好。在精度比较中,三者在IV中的差异很小,而ARCF-HC跟踪器[24]和AutoTrack跟踪器[22]的整体精度明显高于ECO-HC跟踪器[95]。ARCF-HC、AutoTrack和ECO-HC追踪器分别在FM、LR和OCC下更精确。
图8。三个性能最好的跟踪器的性能比较。该图使用雷达图来显示它们在不同属性下的能力,其具体值在图7中。注意,总体数据也是六个基准中所有序列的平均值。为了更好的显示效果,请参考本文的电子版。
4.4 针对深度跟踪器
为了更好地展示基于dcfb的跟踪器在UA V跟踪场景中使用手工特征的优越性,选择了各种深度跟踪器,包括采用基本CF框架但使用CNN特征的跟踪器,即ASRCF跟踪器[73]、ECO跟踪器[95]、CFWCR跟踪器[64]、MCCT跟踪器[89]、MPCF跟踪器[65]、DeepSTRCF跟踪器[66]、CoKCF跟踪器[101]、IBCCF跟踪器[102]、HCFT跟踪器[67] UDT+跟踪器[98]、SiamFC跟踪器[57]、CFNet conv2跟踪器[99]、TADT跟踪器[100]、UDT跟踪器[98]和DSiam跟踪器[58]。
备注17:所有的深度追踪器在实验中都使用了GPU加速,所有基于DCF的追踪器都使用了手工设计的特征,例如,AutoTrack tracker是在仅使用一个内核的单个CPU上进行评估的。
备注18:根据表4并关注AUC和DP,AutoTrack追踪器[22]在6个基准测试中获得了最多的前3分和最多的第一分,被认为是最杰出的基于DCF的追踪器。本小节选择AutoTrack来演示基于DCF的跟踪器在无人机跟踪中相对于深度跟踪器的优势。
表6列出了基准UA VDT [20]下的DP和跟踪速度。正如它们的跟踪性能所示,即使具有低成本的手工制作功能,AutoTrack跟踪器[22]仍然胜过大多数深度跟踪器,实现了出色的精度和可观的跟踪速度。
根据实验结果,即使与优秀的深度跟踪器相比,手工制作的基于DCF的跟踪器仍然在精度上保持其强大的竞争力,并具有实时性能,这进一步证实了使用手工制作功能的基于DCF的跟踪器,例如AutoTrack跟踪器[22]等。,是基于UA V的空中跟踪的最佳选择。
4.5 失败案例和挑战
尽管出色的基于DCF的方法在无人飞行器跟踪中显示出了它们的优越性,但是仍然存在尚未很好解决的跟踪挑战。本小节分析了五个性能最佳的跟踪器的经典跟踪失败案例,即AutoTrack跟踪器[22]、ARCF-HC跟踪器[24]、STRCF跟踪器[66]、ECOHC跟踪器[95]和BACF跟踪器[92],以说明当前手工制作的基于DCF的跟踪器的局限性和挑战。图9显示了不同基准中有代表性的跟踪失败。
图9。6个流行的无人机跟踪基准中有代表性的跟踪失败案例。序列和对应的基准标在每行的左上角,即Car2@DTB70 [18],person14@UAV20L [19],uav1@UAV123 [19],boat3@UAV123@10fps [19],S1302@UAVDT [20],71 02520 s@Visdrone2019-SOT [21](从第一行到最后一行)。跟踪器的预测框用不同的颜色标出,例如,红色用于ECO-HC跟踪器。为了更好的显示效果,请参考本文的电子版。
(1)对于基于DCF的跟踪器来说,快速的比例变化和其他外观变化目前难以处理。在图9的第四和第五行中,当对象经历由视点变化或比例变化引起的快速外观变化时,跟踪器不能及时适应外观变化,做出错误的位置和比例估计。这种场景通常会导致过滤器学习到错误的对象信息,并最终导致跟踪失败。
(2)遮挡问题通常很难被追踪器解决。在图9的第二行中,当对象被完全遮挡并且再次出现在跟踪器的搜索区域之外时,跟踪器不能预测对象位置。在图9的第六行中,即使部分遮挡也会严重影响跟踪器学习的对象模板,导致跟踪失败。
(3)低分辨率物体比其他物体更难跟踪。如图9的第一和第三行所示,低分辨率对象导致滤波器的训练样本不足,这可能降低滤波器从背景中辨别对象的能力。当这种物体经历快速运动时,由于滤波器的辨别能力差,更容易导致跟踪失败。在图9的第五行中,小物体也可能导致错误的尺度估计,其中当物体尺度改变时,跟踪器不能及时适应。
(4)较差的照明条件和照明变化会使跟踪更加困难。如图9的第五行和第六行所示,在相对昏暗的环境中,过滤器不能学习足够多的代表性对象特征,因此难以从环境中区分对象。在这种情况下,比例变化、部分遮挡或类似物体的存在使得鲁棒跟踪更加困难。
5 机载评估
除了上面的大规模评估实验,这项工作还扩展了机载测试,以进一步验证基于dcfb的出色跟踪器的实时能力和鲁棒性[22],[24]。这个评估采用了经典的基于CPU的板载PC为UA V,Intel NUC8i7HVK,其中包含一个英特尔酷睿i7-8809G CPU,32GB RAM,作为测试平台。
图10显示了AutoTrack [22]和ARCF-H [24]跟踪器的六次试验的机载跟踪性能。六个测试,即(a)、(b)、(c)、(d)、(e)和(f),包含挑战,例如LR、IV、VC等。,通常在UA V跟踪中遇到(包括一个长期跟踪序列)。表7显示了每个测试中的挑战和两个跟踪器的运行速度,它们都超过了30FPS,实现了实时处理。在图10中,在6次测试中,两个跟踪器的CLE都小于20像素,这表明出色的跟踪器在现实世界中具有挑战性的UA V跟踪场景中保持了令人满意的鲁棒性。
备注19:车载跟踪已经验证了基于DCF的方法的有效性。这种计算优势为其他耗能功能节省了稀缺的电力供应,如无人机在强风中的自我控制。
图10,中心定位误差(CLE)方面的机载跟踪性能。六个测试(a)、(b)、(c)、(d)、(e)和(f)中,跟踪目标用红框标出,包含了上述常见的无人机跟踪挑战。显示的令人满意的CLE结果验证了AutoT rack [22]和ARCF-H [24]跟踪器在具有挑战性的真实世界无人机跟踪中的鲁棒性。为了更好的显示效果,请参考本文的电子版。
6,进一步的发展
基于dcfb的跟踪器的未来研究和改进工作可以总结为四点:
1, 开发更多的自适应相关滤波器,对于各种跟踪场景和对象具有不同的学习速率或自适应参数。
2, 研究更智能的搜索策略,更好地适应物体移动更快或被遮挡后在远处重新出现的情况。
3,在基本跟踪结构中嵌入图像预处理策略,以提高跟踪者在复杂场景下的辨别能力。这些策略包括但不限于:弱光图像增强器、对象分割方法、显著性检测算法等。
4,研究多模式跟踪器,如红外模式,以应对照明条件差的跟踪场景。
可以相信,基于DCF的星载无人飞行器跟踪方法前景广阔,可以促进无人飞行器的发展和应用,从而推动遥感领域的进步。
7,总结
本文首先介绍了无人机上的跟踪场景,与一般跟踪场景相比,无人机跟踪的独特性和挑战性,以及与其他类型的跟踪器相比,基于dcfb的方法适用于无人机空中跟踪的原因。接下来,为了全面理解,提出了基于dcfb的跟踪算法的公共基本架构。第三,这项工作介绍了著名的基于DCF的跟踪器的亮点,集中在他们的贡献,从而整合了基于DCF的跟踪器多年来的发展。然后,在实验部分,在介绍了一些实现信息之后,在六个无人机跟踪基准上进行了详尽的实验,以评估所有提到的基于dcfb的跟踪器(包括一般的和按属性的),并展示其跟踪的优越性。基于实验结果,本文进一步分析了当前的跟踪挑战。此外,扩展了附加的机载跟踪测试,以验证出色的基于DCF的跟踪器在具有挑战性的真实飞行无人机跟踪任务中的实时能力和鲁棒性。最后,总结了未来的研究方向和改进工作,指导DCF在无人机跟踪方面取得更多成果。
最后
以上就是殷勤小伙为你收集整理的基于DCF的UAV跟踪:综述和试验评估(翻译)摘要引言2,相关工作3,基于DCF方法的发展4, 实验评估和分析5 机载评估6,进一步的发展7,总结的全部内容,希望文章能够帮你解决基于DCF的UAV跟踪:综述和试验评估(翻译)摘要引言2,相关工作3,基于DCF方法的发展4, 实验评估和分析5 机载评估6,进一步的发展7,总结所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复