CN111179314A

CN111179314A - 一种基于残差密集孪生网络的目标跟踪方法

Info

Publication number: CN111179314A
Application number: CN201911389973.8A
Authority: CN
Inventors: 付利华; 王路远; 丁宇; 章海涛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-19
Anticipated expiration: 2039-12-30
Also published as: CN111179314B

Abstract

本发明提供了一种基于残差密集孪生网络的目标跟踪方法，该方法首先在视频第一帧图像中提取待跟踪目标的模板图像，并将其输入到残差密集网络，获得初始模板特征，将提取的特征进一步输入全局注意力模块，获得模板特征，完成***初始化；然后对第t帧图像裁剪提取搜索区域图像，并将其输入到残差密集网络获得搜索区域特征；最后，将模板特征和搜索区域特征输入候选区域生成网络，得到前景与背景分类置信度和边界框回归估计值，进一步得到第t帧跟踪结果。应用本发明，解决了现有基于孪生网络的目标跟踪方法无法有效处理背景杂乱、相似语义干扰的问题，还解决了现有基于孪生网络的目标跟踪方法跟踪准确度低，鲁棒性差的问题。

Description

一种基于残差密集孪生网络的目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，尤其涉及一种基于残差密集孪生网络的目标跟踪方法。

背景技术

目标跟踪是指基于手动在视频第一帧中框选出的待跟踪目标，自动地在后续视频序列中持续地对目标的位置和尺度信息进行估计预测。目标跟踪是计算机视觉中的一个基本问题，在视频监控、无人机、人机界面和机器人感知等诸多领域中均有应用。

基于深度学习的目标跟踪算法采用大量具有标注的数据离线训练出网络模型，得益于大量的训练数据，基于深度学习的目标跟踪算法提取的特征比传统的手工选取特征具有更好的表现力，跟踪效果更好。在基于深度学习的目标跟踪算法中，基于孪生网络的方法因为无需在线更新，跟踪速度快，逐渐成为了主流的基于深度学习的目标跟踪算法。然而现有基于孪生网络的方法一般都采用AlexNet作为特征提取网络，其特征提取能力有限，无法应对目标跟踪面临的挑战；且在特征选择上只是将最后一层网络的输出作为特征，最后一层的特征虽然具有较多的语义信息，但是由于包含表观信息较少，达不到目标跟踪需要精准定位的要求。此外，对于未在训练集中出现过的目标，离线训练的深度特征不能很好地适应于此类目标。

为了解决上述问题，本发明提出了一种新的基于孪生网络的目标跟踪方法。

发明内容

本发明要解决的问题是：在现有基于孪生网络的目标跟踪方法中，使用AlexNet作为特征提取网络，其特征提取能力有限，无法很好地处理目标跟踪中的背景杂乱、相似语义干扰等问题；现有基于孪生网络的目标跟踪方法，在特征选择上仅选择最后一层网络的输出作为特征，无法对目标实现精准定位；在跟踪过程中，离线训练的深度特征不能很好地适应特定目标。需要提出一种新的基于孪生网络的目标跟踪方法，提高跟踪精度，更好地应对目标跟踪面临的复杂挑战。

为了解决上述问题，本发明提供了一种基于残差密集孪生网络的目标跟踪方法，以残差密集网络作为模板图像与搜索区域图像的特征提取网络，自适应融合多个残差密集块的特征，引入全局注意力模块强化模板特征中的目标相关信息、抑制背景信息，基于相似度匹配进行视觉目标跟踪。具体包括以下步骤：

1)对待跟踪视频的第一帧图像进行裁剪，根据手动选取的初始目标框信息，获取目标模板图像；

2)将目标模板图像输入到残差密集网络，提取初始模板特征；

3)将初始模板特征输入到全局注意力模块，提取模板特征，全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息；

4)对待跟踪视频的第t帧图像进行裁剪，获取第t帧的搜索区域图像；

5)将第t帧的搜索区域图像，输入到残差密集网络，得到搜索区域特征；

6)将模板特征与搜索区域特征输入到候选区域生成网络，得到跟踪结果。

作为进一步的优选方式，步骤1)所述获取目标模板图像，具体为：

1.1)对于第一帧图像，根据手动选取的目标边界框信息得到目标中心位置和目标框的大小(w,h)，以目标中心位置为中心截取一个正方形区域为初始模板图像。该正方形的边长

其中目标上下文余量p＝0.5×(w+h)，如果截取区域超出视频帧图像范围，则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充。

1.2)初始模板图像的边长乘以放缩系数s，将其放缩到127×127大小， s满足s×sz＝127，得到目标模板图像。由于本方法不涉及模板图像的更新，因此以上对于模板图像的处理只需要执行一次。

作为进一步的优选方式，步骤2)所述残差密集网络由浅层特征提取子网、残差密集特征提取子网、密集特征融合子网三部分组成。

所述获取初始模板特征，具体步骤为：

2.1)将模板图像z输入到浅层特征提取子网，提取模板图像的浅层特征F_z,0：

其中，

表示浅层特征提取操作。

2.2)将模板图像的浅层特征F_z,0输入到残差密集特征提取子网，得到四个残差密集特征F_z,i,i＝1,2,3,4。

残差密集特征提取子网由四个残差密集块组成，残差密集块由一组密集连接模块、局部注意力模块和残差模块三部分组成。

对于第i个残差密集块，其特征输入为F_z,i-1，特征输出为F_z,i。首先，将特征F_z,i-1输入到密集连接模块提取特征F″_z,i：

其中，

表示密集连接模块特征提取操作。然后，将特征F″_z,i输入到局部注意力模块得到特征F′_z,i：

其中，

表示局部注意力操作。最后，将特征F_z,i-1与特征F′_z,i输入到残差模块得到残差密集特征F_z,i：

F_z,i＝F_z,i-1+F′_z,i

2.3)在通过四个残差密集块提取特征后，进一步地将四个残差密集特征输入到密集特征融合子网，得到初始模板特征

其中，

为密集特征融合操作。

作为进一步的优选方式，步骤3)具体为：

3.1)生成密集特征块权重描述子M：首先，使用平均池化和最大池化处理初始模板特征

分别生成两个不同的空间信息描述子M_avg和 M_max，然后，使用两个全连接层对这两个空间信息描述子进一步处理，最后，使用sigmoid函数做最后的处理，生成密集特征块权重描述子 M∈R^4×1×1:

M＝σ(W₁(W₀(M_avg))+W₁(W₀(M_max)))

其中，σ为sigmoid函数，W₀,W₁分别为两个全连接层的参数。

3.2)将密集特征块权重描述子M作用于初始模板特征

得到模板特征F_z：

其中，

表示将M扩展到与

相同的维度，再与

逐点相乘。

作为进一步的优选方式，步骤4)所述获取搜索区域图像，具体为：

4.1)对于第t帧图像，根据第t-1帧图像跟踪得到的目标中心位置和目标框大小(w,h)，以目标中心位置为中心截取一个正方形区域为初始搜索区域图像。该正方形的边长

其中目标上下文余量p＝0.5×(w+h)，搜索区域图像边长与模板图像边长比值sc＝255/127。如果截取区域超出视频帧图像范围，则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充。

4.2)初始搜索区域图像的边长乘以放缩系数s，将其放缩到255×255 大小，s满足s×sx＝255，得到搜索区域图像。

作为进一步的优选方式，步骤5)所述残差密集网络与步骤2)所述残差密集网络为参数共享的孪生网络。

所述获取搜索区域特征，具体步骤为：

5.1)将搜索区域图像x输入到浅层特征提取子网，提取搜索区域图像的浅层特征F_x,0。

5.2)将搜索区域图像的浅层特征F_x,0输入到残差密集特征提取子网，通过残差密集特征提取子网中的四个残差密集块提取特征，分别得到四个残差密集特征F_x,i,i＝1,2,3,4。

5.3)进一步地将四个残差密集特征输入到密集特征融合子网，得到搜索区域特征F_x。

作为进一步的优选方式，步骤6)所述的候选区域生成网络由前景与背景分类分支和边界框回归分支两部分组成。将搜索区域特征F_x同模板特征F_z送入候选区域生成网络，得到跟踪结果，具体步骤为：

6.1)对于前景与背景分类分支，使用一个卷积层分别对搜索区域特征F_x和模板特征F_z进行调整，得到特征F_x,cls和F_z,cls；对于边界框回归分支，使用一个卷积层分别对搜索区域特征F_x和模板特征F_z进行调整，得到特征F_x,reg和F_z,reg，调整后的特征更适合于跟踪任务。

6.2)分别对分类分支和回归分支中的搜索区域特征和模板特征进行互相关操作。其互相关操作计算如下：

A_cls＝F_x,cls*F_z,cls

A_reg＝F_x,reg*F_z,reg

其中，A_cls表示前景与背景分类置信度响应图，A_reg表示边界框回归估计值，*表示卷积操作。响应图中响应值最大的点为预测到的目标在第t帧中的位置。根据预测到的目标新位置，将与之对应的边界框回归估计值作用于当前目标大小，更新目标的边界框信息，完成对第t帧目标的跟踪。

本发明提供了一种基于残差密集孪生网络的目标跟踪方法，该方法首先在视频第一帧图像中提取待跟踪目标的模板图像，并将其输入到残差密集网络，获得初始模板特征，将提取的特征进一步输入全局注意力模块，获得模板特征，完成***初始化；然后对第t帧图像裁剪提取搜索区域图像，并将其输入到残差密集网络获得搜索区域特征；最后，将模板特征和搜索区域特征输入候选区域生成网络，得到前景与背景分类置信度和边界框回归估计值，进一步得到第t帧跟踪结果。应用本发明，解决了现有基于孪生网络的目标跟踪方法无法有效处理背景杂乱、相似语义干扰的问题，还解决了现有基于孪生网络的目标跟踪方法跟踪准确度低，鲁棒性差的问题。本发明适用于视觉目标跟踪，算法鲁棒性好，跟踪精度高。

有益效果

首先，本发明在主干网络上使用残差密集网络，网络的设计更为合理，使用来自多个残差密集块的特征，低层特征表观信息较多，有利于提升跟踪精度，高层特征语义信息较多，有利于提升跟踪鲁棒性；其次，引入局部注意力机制，使得网络能够关注于前景信息，抑制背景信息，排除相似语义的干扰；最后，引入全局注意力机制，调整残差密集块特征间的权重，进一步提升跟踪效果。

附图说明

图1是本发明基于残差密集孪生网络的目标跟踪方法的流程图；

图2是本发明基于残差密集孪生网络的目标跟踪方法的网络架构图；

图3是本发明设计的全局注意力模块结构图。

具体实施方式

如图1所示，本发明包括以下步骤：

1)对待跟踪视频的第一帧图像进行裁剪，根据手动选取的目标边界框信息，获取目标模板图像，具体为：

2)将目标模板图像输入到残差密集网络，提取初始模板特征。残差密集网络由浅层特征提取子网、残差密集特征提取子网、密集特征融合子网三部分组成。

获取初始模板特征，具体为：

其中，

表示浅层特征提取操作。

其中，

其中，

F_z,i＝F_z,i-1+F′_z,i

其中，

为密集特征融合操作。

3)将初始模板特征输入到全局注意力模块，全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息。

分别生成两个不同的空间信息描述子M_avg和M_max，然后，使用两个全连接层对这两个空间信息描述子进一步处理，最后，使用sigmoid函数做最后的处理，生成密集特征块权重描述子 M∈R^4×1×1:

M＝σ(W₁(W₀(M_avg))+W₁(W₀(M_max)))

其中，σ为sigmoid函数，W₀,W₁分别为两个全连接层的参数。

3.2)将密集特征块权重描述子M作用于初始模板特征

得到模板特征F_z：

其中，

表示将M扩展到与

相同的维度，再与

逐点相乘。

4)对待跟踪视频的第t帧图像进行裁剪，获取第t帧搜索区域图像，具体为：

5)将第t帧搜索区域图像，输入到残差密集网络，得到搜索区域特征。提取搜索区域特征所用到的残差密集网络与提取模板图像特征所用到的残差密集网络为参数共享的孪生网络。

获取搜索区域特征，具体为：

5.1)将搜索区域图像x输入到浅层特征提取子网，提取搜索区域图像的浅层特征F_x,0；

5.2)将搜索区域图像的浅层特征F_x,0输入到残差密集特征提取子网，在通过残差密集特征提取子网的四个残差密集块提取特征后，得到四个残差密集特征F_x,i,i＝1,2,3,4；

5.3)进一步将四个残差密集特征输入到密集特征融合子网，得到搜索区域特征F_x。

6)将模板特征与搜索区域特征输入到候选区域生成网络，得到跟踪结果。候选区域生成网络由前景与背景分类分支和边界框回归分支两部分组成，更为具体的：

6.2)分别对分类分支和回归分支中的搜索区域特征和模板特征进行互相关操作，其互相关操作计算如下：

A_cls＝F_x,cls*F_z,cls

A_reg＝F_x,reg*F_z,reg

本发明在目标跟踪和计算机视觉领域有着广泛的应用，例如：视频监控、人机界面和机器人感知等。下面参照附图，对本发明进行详尽的描述。

在NVIDIA GeForce GTX 1080Ti和Ubuntu16.04 64位操作***下，基于PyTorch深度学习框架实现该方法。

本发明提供了一种基于残差密集孪生网络的目标跟踪方法，适用于视觉目标跟踪，鲁棒性好，速度快，跟踪结果较为准确。实验表明该方法能够有效地处理目标跟踪任务。

Claims

1.基于残差密集孪生网络的目标跟踪方法，其特征在于，包括以下步骤：

步骤1)对待跟踪视频的第一帧图像进行裁剪，根据手动选取的初始目标框信息，获取目标模板图像；

步骤2)将目标模板图像输入到残差密集网络，提取初始模板特征；

步骤3)将初始模板特征输入到全局注意力模块，提取模板特征，全局注意力模块用于强化初始模板特征中的目标相关信息、抑制背景信息；

步骤4)对待跟踪视频的第t帧图像进行裁剪，获取第t帧搜索区域图像；

步骤5)将第t帧搜索区域图像，输入到残差密集网络，得到搜索区域特征；

步骤6)将模板特征与搜索区域特征输入到候选区域生成网络，得到跟踪结果。

2.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，步骤1)所述获取目标模板图像，具体为：

1.1)对于第一帧图像，根据手动选取的目标边界框信息得到目标中心位置和目标框的大小(w,h)，以目标中心位置为中心截取一个正方形区域为初始模板图像，该正方形的边长

其中目标上下文余量p＝0.5×(w+h)，如果截取区域超出视频帧图像范围，则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充；

1.2)初始模板图像的边长乘以放缩系数s，将其放缩到127×127大小，s满足s×sz＝127，得到目标模板图像；由于本方法不涉及模板图像的更新，因此以上对于模板图像的处理只需要执行一次。

3.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，步骤2)所述残差密集网络由浅层特征提取子网、残差密集特征提取子网、密集特征融合子网三部分组成；

所述获取初始模板特征，具体步骤为：

2.1)将模板图像z输入到浅层特征提取子网，提取模板图像的浅层特征F_z,0；

2.2)将模板图像的浅层特征F_z,0输入到残差密集特征提取子网，得到四个残差密集特征F_z,i,i＝1,2,3,4；

残差密集特征提取子网由四个残差密集块组成，残差密集块由一组密集连接模块、局部注意力模块和残差模块三部分组成；

对于第i个残差密集块，其特征输入为F_z,i-1，特征输出为F_z,i；首先，将特征F_z,i-1输入到密集连接模块提取特征F″_z,i；然后，将特征F″_z,i输入到局部注意力模块得到特征F″_z,i；最后，将特征F_z,i-1与特征F′_z,i输入到残差模块得到残差密集特征F_z,i；

2.3)在通过四个残差密集块提取特征后，进一步地将四个残差密集特征输入到密集特征融合网络，得到初始模板特征

4.根据权利要求3所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，所述的浅层特征提取子网由两个卷积层串联构成；密集连接模块由一组卷积层密集连接构成，即第i个卷积层的输入为它前面的i-1个卷积层的输出；局部注意力模块由一个全局池化层、两个全连接层依次连接构成；残差模块为局部注意力模块的输出特征与前一个残差密集块的输出特征逐点相加；密集特征融合子网由一个Concat层构成。

5.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，步骤3)具体为：

分别生成两个不同的空间信息描述子M_avg和M_max，然后，分别使用两个全连接层对这两个空间信息描述子进一步处理，最后，使用sigmoid函数做最后的处理，生成密集特征块权重描述子M∈R^4×1×1；

3.2)将密集特征块权重描述子M作用于初始模板特征

得到模板特征F_z，具体为：

其中，

表示将M扩展到与

相同的维度，再与

逐点相乘。

6.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，步骤4)所述获取搜索图像，具体为：

4.1)对于第t帧图像，根据第t-1帧图像跟踪得到的目标中心位置和目标框大小(w,h)，在第t帧图像上以目标中心位置为中心截取一个正方形区域为初始搜索区域图像，该正方形的边长

其中目标上下文余量p＝0.5×(w+h)，搜索区域图像边长与模板图像边长比值sc＝255/127，如果截取区域超出视频帧图像范围，则使用该图像的RGB三通道均值对正方形区域中超出视频帧图像的部分进行填充；

4.2)初始搜索区域图像的边长乘以放缩系数s，将其放缩到255×255大小，s满足s×sx＝255，得到搜索区域图像。

7.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，步骤5)所述残差密集网络与步骤2)所述残差密集网络为参数共享的孪生网络；

所述获取搜索区域特征，具体步骤为：

5.2)将搜索区域图像的浅层特征F_x,0输入到残差密集特征提取子网，得到四个残差密集特征F_x,i,i＝1,2,3,4；

5.3)在通过四个残差密集块提取特征后，进一步地将四个残差密集特征输入到密集特征融合子网，得到搜索区域特征F_x。

8.根据权利要求1所述的基于残差密集孪生网络的目标跟踪方法，其特征在于，步骤6)所述的候选区域生成网络由前景与背景分类分支和边界框回归分支两部分组成；将搜索区域特征F_x同模板特征F_z送入候选区域生成网络，得到跟踪结果，具体步骤为：

6.1)所述的前景与背景分类分支为两个并列的卷积层，搜索区域特征F_x和模板特征F_z分别经过一个卷积层，对应得到特征F_x,cls和F_z,cls；所述的边界框回归分支为两个并列的卷积层，搜索区域特征F_x和模板特征F_z分别经过一个卷积层，对应得到特征F_x,reg和F_z,reg，调整后的特征更适合于跟踪任务；

6.2)分别对分类分支和回归分支中的搜索区域特征和模板特征进行互相关操作，分别得到前景与背景分类置信度响应图A_cls和边界框回归估计值A_reg；响应图中响应值最大的点为预测到的目标在第t帧中的位置，根据预测到的目标新位置，将与之对应的边界框回归估计值作用于当前目标大小，更新目标的边界框信息，完成目标对第t帧的跟踪；

其中，响应图A_cls、回归估计值A_reg的计算公式如下：

A_cls＝F_x,cls*F_z,cls

A_reg＝F_x,reg*F_z,reg

其中，*表示卷积操作。