CN111696137B

CN111696137B - 一种基于多层特征混合与注意力机制的目标跟踪方法

Info

Publication number: CN111696137B
Application number: CN202010518472.1A
Authority: CN
Inventors: 王正宁; 曾浩; 潘力立; 何庆东; 刘怡君; 曾仪; 彭大伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2022-08-02
Anticipated expiration: 2040-06-09
Also published as: CN111696137A

Abstract

本发明公开了一种基于多层特征混合与注意力机制的目标跟踪方法，该方法利用改进的FPN结构将图像浅层特征加以更好的保留利用，这种对浅层特征有更好保留的改进的FPN结构可以输出具有多维度、多尺度特征的融合特征。对不同尺度大小的目标，以及大小在不断变化的目标拥有更好的跟踪能力。将FPN用于级联的RPN上，对于特征提取更加精准，对于保证跟踪时对于相似干扰物有更好的区分，减少错误跟踪的情况发生。同时，利用注意力机制，在空间尺度上，使得网络对目标可能出现的位置给予更多关注，以减少由目标半遮挡，形变，光照等造成的目标丢失或目标跟踪错误的情况。

Description

一种基于多层特征混合与注意力机制的目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及一种基于多层特征混合与注意力机制的目标跟踪方法。

背景技术

视觉目标跟踪是一项重要的计算机视觉任务，可应用于视觉监控、人机交互、视频压缩等领域。尽管对这一课题进行了广泛的研究，但由于光照变化、部分遮挡、形状变形和相机运动等因素的影响，它在处理复杂的物体外观变化方面仍然存在困难。

目标跟踪算法在现阶段主要有两个大的分支，一个是基于相关滤波算法，一个是基于深度学习算法。本发明所提出的目标跟踪方法属于深度学习这一分支。

深度学***衡分布问题，同时通过生成样本，解决样本量不足的问题。但生成对抗网络通常很难训练和评估，在实际中对这一问题的解决的技巧性非常强。发明专利“基于卷积神经网络的红外弱小目标检测跟踪方法，CN110728697A”利用孪生网络进行目标跟踪，通过提取图片的深度特征，进行特征的匹配进而完成目标的跟踪，但该方法对目标浅层特征利用不足，同时对跟踪中的遮挡、半遮挡、光照变化、形变等问题没有好的解决，方法的鲁棒性有待提升。

针对以往深度学习目标特征利用不均以及被跟踪物体受到的遮挡、半遮挡、光照变化、形变等问题，本发明以孪生网络为基础，利用多个FPN进行浅层与深层特征的结合，同时使用注意力机制，提高方法的鲁棒性。

发明内容

本发明属于计算机视觉和深度学习领域，通过改进孪生网络的特征提取部分和区域推荐网络部分，使得整个目标跟踪网络拥有更强的特征提取能力和更强的鲁棒性。本发明提出的一种基于多层特征混合与注意力机制的目标跟踪方法具体步骤如下：

(1)在训练前，对数据集做预处理：训练数据是由视频序列所组成，并带有目标物体

位置与大小的标签；目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧。将原始视频序列进行裁切处理，获得w_t×h_t像素的模板帧F_t和w_c×h_c像素的搜索帧F_c，，其中模板帧对应视频序列的第一帧，搜索帧对应视频序列的第二帧开始的剩余视频序列。

(2)设计两个并行的5区块深度残差网络N₁、N₂用于提取模板帧和搜索帧的特征，通过权值共享的方式构成孪生网络N_S，使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding，同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积，将模板帧F_t和搜索帧F_c分别送入N₁、N₂，通过卷积、池化、激活等操作，提取出其各自在不同深度的特征；ConvM_N(F_t)和ConvM_N(F_c)分别代表了网络不同层次上模板帧F_t和搜索帧F_c的特征输出，其中M代表该特征图所在的ResNet网络中的区块位置，N代表在某一区块中的具***置。

(3)设计特征金字塔网络FPN，包括三个FPN：FPN1，FPN2和FPN3分别将从网络N₁、N₂提取的：(Conv1_1、Conv2_3、Conv3_3)；(Conv1_1、Conv2_3、Conv4_6)；(Conv1_1、Conv2_3、Conv5_3)这3组不同深度的输出特征分别进行融合，获得了3组经过融合的特征，每个FPN接收3个不同尺度的特征图，从大到小、从浅到深分别为F₁、F₂、F₃；特征的融合通过点对点相加完成，通过使用1×1卷积调整一个特征的通道数，使得两个特征通道数相同，再使用2倍上采样或者步长为2的3×3卷积调整另外一个特征的尺寸，使得调整后的两个特征尺寸相同，得以完成点对点相加，即特征融合；将这3种特征进行融合，最终输出融合后的特征F_M，且F_M的尺寸和F₃相同；最终，三个FPN分别输出了模版帧的混合特征F_{M_1}(F_t)、F_{M_2}(F_t)、F_{M_3}(F_t)和搜索帧的混合特征F_{M_1}(F_c)、F_{M_2}(F_c)、F_{M_3}(F_c)；

(4)设计区域推荐网络RPN，包括三个RPN：RPN1，RPN2和RPN3通过分别输入三对模版帧与搜索帧的混合特征：F_{M_1}(F_t)、F_{M_1}(F_c)；F_{M_2}(F_t)、F_{M_2}(F_c)；F_{M_3}(F_t)、F_{M_3}(F_c)，获得建议框的分类结果CLS与回归结果REG；

(5)RPN输出建议框的分类CLS与REG回归结果，这两个不同的输出由两条路径来完成，RPN上半部分输出建议框的分类CLS，下半部分输出建议框的回归REG；RPN首先将从模板帧获取的混合特征F_M(F_t)从边缘进行裁切，不同组合的混合特征通道数不同；之后通过卷积的调整，将F_M(F_t)与F_M(F_c)调整到合适的尺寸[F_M(F_t)]_c，[F_M(F_c)]_c，[F_M(F_t)]_r，[F_M(F_c)]_r；将[F_M(F_t)]_c，[F_M(F_c)]_c进行互相关运算得到初步的分类结果CLS_O；将[F_M(F_t)]_r，[F_M(F_c)]_r进行互相关运算得到初步的回归结果REG_O；

CLS_O的尺寸为w_res×h_res×2k，REG_O的尺寸为w_res×h_res×4k，输出的结果中在w_res×h_res维度与原图w_c×h_c在空间上呈线性的对应关系，在w_res×h_res的每一个位置上对应k个预先设定好大小的锚框，锚框的中心为当前所在位置的中心；CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率P_pos和不包含目标的概率P_neg；REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异，分别为dx，dy，dw，dh。其与实际目标框的关系为：

其中A_x、A_y表示参考框的中心点，A_w、A_h表示参考框的宽高，T_x、T_y、T_w、T_h表示真值的坐标与长宽，最后通过极大值抑制等方法找出最终的目标；

(6)在输出得到CLS_O和REG_O后，再将其输入空间注意力模块，通过平均池化和最大值池化、卷积、Sigmoid激活操作，获得了w_res×h_res×1的空间注意力权重SA_c和SA_r；CLS_O和REG_O分别与SA_c和SA_r对应位置相乘，并与原始的CLS_O和REG_O相加，或得了最终的RPN输出结果CLS和REG；

(7)对三个RPN：RPN1，RPN2和RPN3的输出结果进行加权相加，作为最终的目标跟踪网络输出结果：

其中，α₁，α₂，α₃，β₁，β₂，β₃为预先设定的权重。

(8)训练所述目标跟踪网络时的分类损失L_cls使用交叉熵损失，回归损失L_reg使用具有标准化坐标的平滑L1损失；y表示标签值，

表示实际分类值，即P_pos；dx_T，dy_T，dw_T，dh_T，代表实际k种锚框与实际目标框的长宽差异和位置差异，即真值；损失函数分别定义为：

其中：

最后的损失函数如下：

loss＝L_cls+λL_reg (5)

其中λ是超参数，用于平衡两类损失。

本发明利用改进的FPN结构。相较于传统FPN中获得的深层特征对浅层特征保留不足的情况，利用改进的FPN结构，将图像浅层特征加以更好的保留利用。这种对浅层特征有更好保留的改进的FPN结构可以输出具有多维度、多尺度特征的融合特征。对不同尺度大小的目标，以及大小在不断变化的目标拥有更好的跟踪能力。将FPN用于级联的RPN上，对于特征提取更加精准，对于保证跟踪时对于相似干扰物有更好的区分，减少错误跟踪的情况发生。同时，利用注意力机制，在空间尺度上，使得网络对目标可能出现的位置给予更多关注，以减少由目标半遮挡，形变，光照等造成的目标丢失或目标跟踪错误的情况。

附图说明

图1为本发明的模板帧与搜索帧示意图

图2为本发明的目标跟踪网络整体结构图

图3为本发明的FPN结构图

图4为本发明的RPN结构图

图5为本发明RPN输出结果示意图

图6为本发明的目标跟踪网络训练流程图

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

本发明提出的一种基于多层特征混合与注意力机制的目标跟踪方法具体步骤如下：

(1)在训练前，对数据集做预处理。训练数据是由视频序列所组成，并带有目标物***置与大小的标签。目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧。将原始视频序列进行裁切处理，获得w_t×h_t像素的模板帧F_t和w_c×h_c像素的搜索帧F_c，如图1、图2所示。其中模板帧对应视频序列的第一帧，搜索帧对应视频序列的第二帧开始的剩余视频序列。

(2)设计两个并行的5区块深度残差网络N₁、N₂用于提取模板帧和搜索帧的特征，通过权值共享的方式构成孪生网络N_S。使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding，同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积。将模板帧F_t和搜索帧F_c分别送入N₁、N₂，通过卷积、池化、激活等操作，提取出其各自在不同深度的特征。ConvM_N(F_t)和ConvM_N(F_c)分别代表了网络不同层次上模板帧F_t和搜索帧F_c的特征输出，其中M代表该特征图所在的ResNet网络中的区块位置，N代表在某一区块中的具***置。

(3)设计特征金字塔网络(Feature Pyramid Networks，FPN)，三个FPN(FPN1，FPN2，FPN3)分别将从网络N₁、N₂提取的：(Conv1_1、Conv2_3、Conv3_3)；(Conv1_1、Conv2_3、Conv4_6)；(Conv1_1、Conv2_3、Conv5_3)这3组不同深度的输出特征分别进行融合，获得了3组经过融合的特征。

本发明使用的单个FPN的具体结构如图4所示。每个FPN接收3个不同尺度的特征图，从大到小、从浅到深分别为F₁、F₂、F₃。特征的融合通过点对点相加完成，通过使用1×1卷积调整一个特征的通道数，使得两个特征通道数相同，再使用2倍上采样或者步长为2的3×3卷积调整另外一个特征的尺寸，使得调整后的两个特征尺寸相同，得以完成点对点相加，即特征融合。将这3种特征进行融合，最终输出融合后的特征F_M，且F_M的尺寸和F₃相同。最终，三个FPN分别输出了模版帧的混合特征F_{M_1}(F_t)、F_{M_2}(F_t)、F_{M_3}(F_t)和搜索帧的混合特征F_{M_1}(F_c)、F_{M_2}(F_c)、F_{M_3}(F_c)。

(4)区域推荐网络(Region Proposal Network，RPN)，三个RPN(RPN1，RPN2，RP N3)通过分别输入三对模版帧与搜索帧的混合特征：F_{M_1}(F_t)、F_{M_1}(F_c)；F_{M_2}(F_t)、F_{M_2}(F_c)；F_{M_3}(F_t)、F_{M_3}(F_c)，获得建议框的分类结果CLS与回归结果REG，如图2所示。

(5)RPN需要输出建议框的分类CLS与REG回归结果，这两个不同的输出需要两条路径来完成，图2中的RPN上半部分输出建议框的分类CLS，下半部分输出建议框的回归RE G。RPN首先将从模板帧获取的混合特征F_M(F_t)从边缘进行裁切，其中图4中的c′为当前混合特征通道数，不同组合的混合特征通道数不同。之后通过卷积的调整，将F_M(F_t)与F_M(F_c)调整到合适的尺寸[F_M(F_t)]_c，[F_M(F_c)]_c，[F_M(F_t)]_r，[F_M(F_c)]_r。将[F_M(F_t)]_c，[F_M(F_c)]_c进行互相关运算得到初步的分类结果CLS_O；将[F_M(F_t)]_r，[F_M(F_c)]_r进行互相关运算得到初步的回归结果REG_O。

CLS_O的尺寸为w_res×h_res×2k，REG_O的尺寸为w_res×h_res×4k，如图5所示，输出的结果中在w_res×h_res维度与原图w_c×h_c在空间上呈线性的对应关系，在w_res×h_res的每一个位置上对应k个预先设定好大小的锚框，锚框的中心为当前所在位置的中心。CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率P_pos和不包含目标的概率P_neg。REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异，分别为dx，dy，dw，dh。其与实际目标框的关系为：

其中A_x、A_y表示参考框的中心点，A_w、A_h表示参考框的宽高，T_x、T_y、T_w、T_h表示真值的坐标与长宽。最后通过极大值抑制等方法找出最终的目标。

(6)在输出得到CLS_O和REG_O后，再将其输入空间注意力模块，如图4所示，通过平均池化和最大值池化、卷积、Sigmoid激活操作，获得了w_res×h_res×1的空间注意力权重SA_c和SA_r。CLS_O和REG_O分别与SA_c和SA_r对应位置相乘，并与原始的CLS_O和REG_O相加，或得了最终的RPN输出结果CLS和REG。

(7)对三个RPN(RPN1，RPN2，RPN3)的输出结果进行加权相加，作为最终的目标跟踪网络输出结果：

(8)训练所述目标跟踪网络时的分类损失L_cls使用交叉熵损失，回归损失L_reg使用具有标准化坐标的平滑L1损失。y表示标签值，

表示实际分类值(即P_pos)；dx_T，dy_T，dw_T，dh_T，代表实际k种锚框与实际目标框的长宽差异和位置差异，即真值。损失函数分别定义为：

其中：

最后的损失函数如下：

loss＝L_cls+λL_reg (5)

其中λ是超参数，用于平衡两类损失。

本发明的一种实施例所涉及的关键参数如表1所示，附录1部分图中标注的具体参数是以该实施参数为基准：

表1一种实施例参数

本发明所设计的目标跟踪网络具体训练流程如图6所示，其中具体训练过程以及该方案具体实施相关参数如下：

对数据集中的视频序列进行处理。根据标签信息，裁切获得127×127像素的模板帧F_t和255×255像素的搜索帧F_c。

将模板帧F_t和搜索帧F_c送入图2中的特征提取网络ResNet_N₁与ResNet_N₂，提取出五个不同深度层次的特征，其中两个特征提取网络共享权重。

三个特征金字塔网络，如图3所示，FPN1、FPN2、FPN3分别将提取出的不同深度层次的模板帧F_t与搜索帧F_c特征进行特征融合，其中FPN1融合第一、二、三区块(层)获得的特征，FPN2融合第一、二、四区块(层)获得的特征，FPN3融合第一、二、五区块(层)获得的特征，如图2所示。三对FPN分别输出了模版帧的混合特征F_{M_1}(F_t)、F_{M_2}(F_t)、F_{M_3}(F_t)和搜索帧的混合特征F_{M_1}(F_c)、F_{M_2}(F_c)、F_{M_3}(F_c)。模版帧的混合特征尺寸都为15×15×512，搜索帧的混合特征尺寸都为31×31×512。

将三对混合特征F_{M_1}(F_t)与F_{M_1}(F_c)、F_{M_2}(F_t)与F_{M_2}(F_c)、F_{M_3}(F_t)与F_{M_3}(F_c)分别送入三个区域推荐网络RPN1，RPN2，RPN3，如图2所示。其中每个区域推荐网络的结构相同，如图4所示，共设置5种锚框，即k＝5。首先将模版帧的混合特征F_M(F_t)进行裁切，裁切掉周围部分元素，尺寸变为7×7×512，之后通过四个卷积层调整F_M(F_t)与搜索帧的混合特征F_M(F_c)的通道数，分别可以获得：[F_M(F_t)]_c，尺寸为5×5×(10×512)；[F_M(F_t)]_r，尺寸为5×5×(20×512)；[F_M(F_c)]_c，尺寸为29×29×512；[F_M(F_c)]_r，尺寸为29×29×512。

分别将[F_M(F_t)]_c与[F_M(F_c)]_c、[F_M(F_t)]_r与[F_M(F_c)]_r进行互相关运算，可以获得分类中间结果CLS_O和回归中间结果REG_O。其中CLS_O的尺寸为25×25×10，REG_O的尺寸为25×25×20。

CLS_O和REG_O分别送入对应的空间注意力模块，获得空间注意力权重SA_c和SA_r。将CLS_O和REG_O与SA_c和SA_r对应位置相乘，并与原始的CLS_O和REG_O相加，获得最终RPN输出分类结果CLS和回归结果REG。CLS和CLS_O尺寸相同；REG和REG_O尺寸相同。流程图中的“空间注意力”即完成上述步骤。

将RPN1，RPN2，RPN3的输出的分类结果与回归结果按照0.2，0.3，0.5的权值进行加权相加，即获得最终的目标分类结果与建议框回归结果。根据式(3)(4)(5)计算损失并进行优化。当达到了设定的训练轮数50轮后，即结束训练进行测试。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于多层特征混合与注意力机制的目标跟踪方法，其特征在于，该方法包括以下步骤：

(1)在训练前，对数据集做预处理：训练数据是由视频序列所组成，并带有目标物***置与大小的标签；目标跟踪网络需要输入的是对应跟踪目标的模板帧和用于寻找目标的搜索帧；将原始视频序列进行裁切处理，获得w_t×h_t像素的模板帧F_t和w_c×h_c像素的搜索帧F_c，其中模板帧对应视频序列的第一帧，搜索帧对应视频序列的第二帧开始的剩余视频序列；

(2)设计两个并行的5区块深度残差网络N₁、N₂用于提取模板帧和搜索帧的特征，通过权值共享的方式构成孪生网络N_S，使用的深度残差网络将现有的“ResNet-50”的第一个7×7卷积去掉padding，同时将该“ResNet-50”中最后两次步长为2的卷积改成了步长为1的卷积，将模板帧F_t和搜索帧F_c分别送入N₁、N₂，通过包括卷积、池化、激活在内的操作，提取出其各自在不同深度的特征；ConvM_N(F_t)和ConvM_N(F_c)分别代表了网络不同层次上模板帧F_t和搜索帧F_c的特征输出，其中M代表特征输出ConvM_N(F_t)或ConvM_N(F_c)所在的ResNet网络中的区块位置，N代表特征输出ConvM_N(F_t)或ConvM_N(F_c)在某一区块中的具***置；

CLS_O的尺寸为w_res×h_res×2k，REG_O的尺寸为w_res×h_res×4k，输出的结果中在w_res×h_res维度与原图w_c×h_c在空间上呈线性的对应关系，在w_res×h_res的每一个位置上对应k个预先设定好大小的锚框，锚框的中心为当前所在位置的中心；CLS_O的2k个通道代表了网络预测的k种锚框包含目标的概率P_pos和不包含目标的概率P_neg；REG_O的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异，分别为dx，dy，dw，dh，其与实际目标框的关系为：

其中A_x、A_y表示参考框的中心点，A_w、A_h表示参考框的宽高，T_x、T_y、T_w、T_h表示真值的坐标与长宽，最后通过极大值抑制方法找出最终的目标；

其中，α₁，α₂，α₃，β₁，β₂，β₃为预先设定的权重；

表示实际分类值，即P_pos；dx_T，dy_T，dw_T，dh_T,代表实际k种锚框与实际目标框的长宽差异和位置差异，即真值；损失函数分别定义为：

其中：

最后的损失函数如下：

loss＝L_cls+λL_reg (5)

其中λ是超参数，用于平衡两类损失。

2.根据权利要求1所述的基于多层特征混合与注意力机制的目标跟踪方法，其特征在于，所述步骤(8)训练所述目标跟踪网络具体包括：

对数据集中的视频序列进行处理，根据标签信息，裁切获得127×127像素的模板帧F_t和255×255像素的搜索帧F_c；

将模板帧F_t和搜索帧F_c送入特征提取网络ResNet_N₁与ResNet_N₂，提取出五个不同深度层次的特征，其中两个特征提取网络共享权重；

三个特征金字塔网络，FPN1、FPN2、FPN3分别将提取出的不同深度层次的模板帧F_t与搜索帧F_c特征进行特征融合，其中FPN1融合第一、二、三区块，即一、二、三层获得的特征，FPN2融合第一、二、四区块，即一、二、四层获得的特征，FPN3融合第一、二、五区块，即一、二、五层获得的特征，三对FPN分别输出了模版帧的混合特征F_{M_1}(F_t)、F_{M_2}(F_t)、F_{M_3}(F_t)和搜索帧的混合特征F_{M_1}(F_c)、F_{M_2}(F_c)、F_{M_3}(F_c)；模版帧的混合特征尺寸都为15×15×512，搜索帧的混合特征尺寸都为31×31×512；

将三对混合特征F_{M_1}(F_t)与F_{M_1}(F_c)、F_{M_2}(F_t)与F_{M_2}(F_c)、F_{M_3}(F_t)与F_{M_3}(F_c)分别送入三个区域推荐网络RPN1，RPN2，RPN3，其中每个区域推荐网络的结构相同，共设置5种锚框，即k＝5；首先将模版帧的混合特征F_M(F_t)进行裁切，裁切掉周围部分元素，尺寸变为7×7×512，之后通过四个卷积层调整F_M(F_t)与搜索帧的混合特征F_M(F_c)的通道数，分别获得：[F_M(F_t)]_c，尺寸为5×5×(10×512)；[F_M(F_t)]_r，尺寸为5×5×(20×512)；[F_M(F_c)]_c，尺寸为29×29×512；[F_M(F_c)]_r，尺寸为29×29×512；

分别将[F_M(F_t)]_c与[F_M(F_c)]_c、[F_M(F_t)]_r与[F_M(F_c)]_r进行互相关运算，获得分类中间结果CLS_O和回归中间结果REG_O，其中CLS_O的尺寸为25×25×10，REG_O的尺寸为25×25×20；

CLS_O和REG_O分别送入对应的空间注意力模块，获得空间注意力权重SA_c和SA_r；将CLS_O和REG_O与SA_c和SA_r对应位置相乘，并与原始的CLS_O和REG_O相加，获得最终RPN输出分类结果CLS和回归结果REG；CLS和CLS_O尺寸相同；REG和REG_O尺寸相同，“空间注意力”即完成上述步骤；

将RPN1，RPN2，RPN3的输出的分类结果与回归结果按照0.2，0.3，0.5的权值进行加权相加，即获得最终的目标分类结果与建议框回归结果，根据所述式(3)(4)(5)计算损失并进行优化；当达到了设定的训练轮数50轮后，即结束训练进行测试。