CN111191555B

CN111191555B - 一种结合高低空间频率特征的目标跟踪方法、介质及***

Info

Publication number: CN111191555B
Application number: CN201911349832.3A
Authority: CN
Inventors: 李伟生; 伍蔚帆
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Hefei Minglong Electronic Technology Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-05-03
Anticipated expiration: 2039-12-24
Also published as: CN111191555A

Abstract

本发明请求保护一种结合高低空间频率特征的目标跟踪方法、介质及***，包括步骤：S1输入原始视频图像序列，提取真值图和搜索区域图像的高空间频率特征和低空间频率特征；S2将提取的高低频特征进行信息交换；S3利用相关性计算获取目标真值特征和搜索区域特征的相关性图；S4通过区域建议网络得到一组分类特征和一组回归特征，结合分类特征和回归特征进行目标的定位。本发明结合了高低频特征提取和基于区域建议网络的孪生目标跟踪方法，利用低空间频率特征减少图像中的冗余信息，降低了目标移动过程中产生的冗余信息造成跟踪失败的几率和跟踪框的偏移程度，并且降低了跟踪方法的计算量；将有利于跟踪的精细特征和全局特征进行交换。

Description

一种结合高低空间频率特征的目标跟踪方法、介质及***

技术领域

本发明属于计算机视觉技术领域，特别涉及高低空间频率的特征提取的目标跟踪方法。

背景技术

跟踪是计算机视觉领域的一个基本的任务，在近十年来受到了广泛的关注。它旨在只通过最初帧的目标的位置信息，对后续的目标在一个视频序列中的位置进行定位。跟踪在人机交互，视频标记，自动驾驶等领域具有广泛的应用。目前的***分为两个分支。其一，是基于相关滤波器的目标跟踪方法。如COT、ECO等方法。相关滤波方法可以进行在线训练和离线的权重更新。结合深度特征后的相关滤波方法能够进一步提升精度。目前，利用深度学习相关滤波方法在OTB数据集上仍然是性能较强的方法之一。另一类***使用的是较强的深度特征对目标进行定位，并取得了较高的精度。如MDNet、CFNet、SiamFC等方法。一般情况下，这类***的提取特征的网络部分的权重是不更新的。最近的利用深度特征进行跟踪的方法，都是旨在离线训练一个鲁棒性较强的特征网络参数，再通过在线跟踪的方式获取目标的位置。但是大多数***均使用AlexNet作为特征网络的提取，在目标的特征表示方面，浅层网络由于参数的限制，其表示能力是不如深层网络的。所以，在特征提取方面，很多***没有很好地利用深层网络的优势。

孪生网络(Siamese Net)方法是目前依靠深度特征进行跟踪的优秀系列方法。但是它没有使用深层次网络对跟踪目提取更加鲁棒的信息。所以，尝试引入ResNet作为特征提取网络代替跟踪方法中的AlexNet网络，使得网络的深度加深，以提高提取特征的丰富性。

然而对于跟踪任务来说，提取的特征需要有目标快速变换的细节信息，又需要有目标总体的结构信息。ResNet由于深度较深，最终输出的信息过于丰富，它所提取的最终特征不完全是跟踪任务所需要的，直接替换容易造成跟踪模型的过拟合。目前多种***已经表明，对于跟踪来说，浅层信息仍然十分重要。如MDNet等方法，使用的特征是通过结合多层特征的方式来增强特征信息，取得了较好的效果。但是，ResNet网络卷积层数较多，如何选取多层特征来增强特征信息是一个难题。为了解决这个问题，将跟踪序列的每一帧图像的特征进行分解。一副自然图像，可以分为一个高空间频率的分量，它用来表示快速变化的细节特征；一个低空间频率的分量，它用描述图像平滑的大体结构。

因此，我们对ResNet的卷积部分进行了改进：首先，通过将卷积提取的特征分为高频采样特征和低频采样特征。然后，将每层卷积输出的高频特征和低频特征进行信息交换。通过这种方法将***的特征提取网络进行优化。虽然跟踪方法众多，但是均有弊端，即使使用深层卷积网络的跟踪方法一节取得了较好的结果，由于深层的ResNet等深层网络会提取过多的细节特征，一方面增加了计算开销，另一方面导致过于细节的特征提取而缺乏整体特征的表示使得深度卷积代替浅层卷积网络效果下降，因此将高低频特征卷积与孪生网络跟踪方法结合起来，优化了卷积提取，并不改变整体特征网络的大体外观结构和功能，在目标跟踪领域具有广泛的应用前景。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种有效基于深度卷积网络特征、并将更深层卷积网络提取特征后跟踪精度下降问题规避的、结合了高低空间频率卷积计算的孪生网络的目标跟踪方法、介质及***。本发明的技术方案如下：

一种结合高低空间频率特征的目标跟踪方法，其包括以下步骤：

S1、首先输入原始视频图像序列，并根据数据集所提供的第一帧的目标真值图剪切出目标图像真值和搜索区域图像序列，采用高低空间频率卷积对图像序列进行特征提取，得到每层的高频特征分量和低频特征分量，提取的特征作为判断后续跟踪目标的特征；

S2、其次，对每层的高频特征分量和低频特征分量进行信息交换，最终输出特征加强后的跟踪序列特征值；

S3、再次，根据高低空间频率特征网络提取的目标图像和搜索图像序列特征，利用相关性计算获取目标真值特征和搜索区域特征的相关性图；

S4、最后通过区域建议网络进行再处理，得到分类特征和回归特征，将分类特征定位的目标位置通过回归特征参数进行修正，得到所要跟踪的目标位置。

进一步的，所述步骤S1中对输入的原始视频图像序列的剪切，是对视频序列第一帧所提出的目标位置进行剪切，以前一帧预测的目标位置2倍区域做搜索区域图像序列进行剪切，这样就可以通过特征提取网络得到所需跟踪目标的特征图和后续跟踪过程中搜索区域的特征图。

进一步的，所述步骤S1中的高低空间频率提取特征，是对剪切后的图像的通道特征进行处理的方法，具体包括：首先经过层普通卷积计算，将输入的图像通道扩张为c，c为一般的特征提取网络的卷积操作后产生的特征通道数目，c₁为高频卷积处理的通道数，c₂为低频卷积处理的通道数，其中，满足c＝c₁+c₂。即通过对一般卷积网络产生的多通道特征进行分区处理，高频卷积处理方式同一般特征提取相同，低频卷积是对第一层卷积输出进行下采样后，再进行正常卷积操作的方式。

进一步的，所述步骤S2中将高低特征进行信息交换，是通过特征提取网络的第一块卷积所得到的特征张量X，将通道总数量c分为c₁个通道特征和c₂个通道特征，c₁个通道特征作为高频卷积的特征分量X^H输入，c₂个通道特征作为低频卷积的特征分量X^L输入，通过卷积计算后，将高频和低频分量的特征输出分解为Y＝{Y^H，Y^L}，通过上下采样，统一高低频采样卷积计算输出后的空间分辨率，输出的特征可以表示为：

式(1)中，Y^H→H和Y^L→L表示高低频卷积计算后，相同空间分辨率的特征信息传递，Y^H ^→L和Y^L→H表示高低频信息交换。

进一步的，为了运算新卷积的输出特征张量，设有卷积核W＝{W^H→H，W^L→H，W^L→L，W^H ^→L}，用来负责对输入特征X^L和X^H进行卷积，因此，用特征计算可以细化为：

式(2)中，f(X；W)表示与参数W的卷积，pool(X，2)表示用平均池化作为下采样；

a)输出函数f(X^H；W^H→H)和f(X^L；W^L→L)为式(1)的Y^H→H和Y^L→L的具体计算表示，表示将高频特征和低频特征传递给下一层卷积网络计算；b)通过upsample(f(X^L；W^L→H)，2)完成高频特征的下采样，将高频信息传递给下一层的低频卷积中。通过f(pool(X^H，2)；W^H→L)完成低频特征的上采样，将低频信息传递给下一层的高频卷积中。

进一步的，所述步骤S3中利用相关性计算获取目标真值特征和搜索区域特征的相关性图，具体包括：

使用一个函数f_θ(z，x)去比较目标样例图像z和搜索图像x的相似度，通过以下公式输出相关性映射图谱：

式(3)中，z表示感兴趣的图像，x表示视频后续帧中的搜索区域，z表示给定目标真值为中心的w×h裁剪，x是目标位置估计结果为中心的更大的裁剪，这两个裁剪输入到相同的卷积网络

进行处理，相当于在搜索图像x：上做以模版图像z的穷举搜索。搜索得到的函数f_θ(z，x)的响应值越大，所映射的位置为目标的可能性越大。

进一步的，所述步骤S4中的区域建议网络是用于监督相关计算后输出的相关性图谱的方法，监督部分有监督部分有两个分支，一个用来做前景目标和背景的分类，一个用来建议回归，特征

和特征

在通过监督部分的连续卷积层后会分为两个分支：一个是用来分类的cls分支特征，即

和

一个是用来回归的reg分支特征，即

和

然后通过下面的公式分别计算分类分支和回归分支：

式(4)中，两个分支的计算将所述步骤S3的相关性计算进行结合，输出的F^cls和F^reg通过超参数调试，以精确S3的定位结果。

一种介质，该介质内部存储计算机程序，其所述计算机程序被处理器读取时，执行上述任一项的方法。

一种结合高低空间频率特征的目标跟踪***，其包括：

特征提取模块：用于输入原始视频图像序列，并根据原始图像序列所提供的第一帧的目标真值图剪切出目标图像真值和搜索区域图像序列，采用高低空间频率卷积对图像序列进行特征提取，得到每层的高频特征分量和低频特征分量，提取的特征作为判断后续跟踪目标的特征；

信息交换模块：用于对每层的高频特征分量和低频特征分量进行信息交换，最终输出特征加强后的跟踪序列特征值；

相关性计算模块：用于根据高低空间频率特征网络提取的目标图像和搜索图像序列特征，利用相关性计算获取目标真值特征和搜索区域特征的相关性图；

特征修正模块：用于通过区域建议网络进行再处理，得到分类特征和回归特征，将分类特征定位的目标位置通过回归特征参数进行修正，得到所要跟踪的目标位置。

本发明的优点及有益效果如下：

本发明将高低空间频率特征提取和目标跟踪方法相结合，利用高低频率特征对跟踪图像帧的特征提取进行了优化，低频特征的引入，一方面可以解决深层网络中特征过于倾向于细节特征而缺乏的整体特征信息的问题，使特征更加利于跟踪，另一方面由于低频特征的计算开销低于高频特征，通过将部分通道特征给予低频特征卷积计算，可以有效降低深层网络的计算开销。同时，借助高低频特征的信息交换，很好地结合了多尺度特征信息，降低了单一细节特征对跟踪运动中物体的干扰，使网络结构提取的特征更加利于跟踪需求。

本发明的创新点在于：其一，在特征提取模块中引入了低频率的特征提取卷积，相对于常规的卷积计算手段，低频率的特征卷积是对正常卷积下采样后的特征再进行的正常卷积计算方法，下采样后的卷积特征比普通卷积计算的特征小，每个特征点映射回原图像后所包含的信息比常规卷积计算的单个特征点表示的信息多，所以具有更多的全局特征。相对于常规卷积方法，低频卷积是对常规卷积产生的多个通道的特征分取一部分做下采样和正常卷积，剩余部分不做下采样只做常规卷积，这称为高频卷积。由于低频卷积对常规卷积做下采样后产生的特征图长宽只有常规卷积的一半，所以低频卷积计算量小，所以整体卷积计算量低于常规卷积。

其二，引入信息交换模块，相对于常规的卷积计算方法，常规卷积计算只拥有特征提取模块的高频卷积特征(高频卷积特征的高频，是相对于低频卷积特征的)，引入的每层低频卷积产生的特征通过上采样获取和其对应的高频卷积产生的特征相同的大小，再进行相加，使得每层高频卷积产生的特征获得低频卷积特征的全局信息；此外，每层高频卷积产生的特征通过下采样获取和其对应的低频卷积产生的特征相同的大小，再进行相加，使得每层低频卷积产生的特征获得高频卷积特征的细节信息。通过信息交换，最终输出的特征同时具有全局性信息和细节信息，是一种新颖的用于跟踪的多尺度特征方法。常规的用于跟踪的多尺度方法，普遍选取多层的常规卷积特征，一般指3至5层的常规卷积特征信息进行提取，再通过上采样或下采样对齐特征大小，再进行特征相加融合。本发明的特点在于，将多尺度信息添加到每层的高频和低频特征输出中，并且可以结合常规方法使用，可进一步根据具体目标跟踪任务要求进行性能提升。

附图说明

图1是本发明提供优选实施例方法的流程图；

图2为本发明对跟踪网络提取部分的卷积计算进行的修改示例。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明的方法流程如图1所示。

本发明涉及了深度卷积计算部分的主干网络块修改为图2。

具体步骤：

步骤S1：先将输入的原始视频图像序列的进行剪切，考虑到是对视频序列第一帧所提出的目标位置进行剪切，以前一帧预测的目标位置2倍区域做搜索区域图像序列进行剪切，这样就可以通过特征提取网络得到所需跟踪目标的特征图和后续跟踪过程中搜索区域的特征图。具体而言，选取目标第一帧所给的真值特征，以选取的真值特征的中心点为准，使其均值填充为长宽均为m的初始图像输入，一般默认m为127。对于搜索区域的第一帧信息，以选取的真值特征的中心点为准，使其均值填充为长宽均为n的初始图像输入，一般默认n为256；对于搜索区域的后续帧信息，以前一帧跟踪算法预测的中心点为准进行填充。

此外，对于高低空间频率提取特征，首先经过层普通卷积计算，将输入的图像通道扩张为c。c为一般的特征提取网络的卷积操作后产生的特征通道数目，c₁为高频卷积处理的通道数，c₂为低频卷积处理的通道数。其中，满足c＝c₁+c₂。即通过对一般卷积网络产生的多通道特征进行分区处理，高频卷积处理方式同一般特征提取相同。低频卷积是对第一层卷积输出进行下采样后，再进行正常卷积操作的方式。

步骤S2：将高低频特征进行信息交换，是通过特征提取网络的第一块卷积所得到的特征张量X，将通道总数量C分为C₁个通道特征作为用于高频卷积的特征分量X^H输入和C₂个通道特征作为用于低频卷积的特征分量X^L输入，通过卷积计算后，将高频和低频分量的特征输出分解为Y＝{Y^H，Y^L}。通过上下采样，统一高低频采样卷积计算输出后的空间分辨率，输出的特征可以表示为：

式(1)中，Y^a→b表示将特征映射到b组，输出的特征大小等于b组的空间分辨率。Y^H→H和Y^L→L表示高低频卷积计算后，相同空间分辨率的特征信息传递，Y^H→L和Y^L→H表示高低频信息交换。为了运算新卷积的输出特征张量，设有卷积核W＝{W^H→H，W^L→H，W^L→L，W^H→L}，用来负责对输入特征X^L和X^H进行卷积。因此，用特征计算可以细化为：

式(2)中，f(X；W)表示与参数W的卷积，pool(X，2)：表示用平均池化作为下采样。

式(2)是式(1)卷积方法的细化，方法中高频卷积特征的输出的空间分辨率大小是低频卷积特征的2倍，因此对于跟踪方法，低频的低频卷积特征的接受域是高频的2倍。a)输出函数f(X^H；W^H→H)和f(X^L；W^L→L)为式(1)的Y^H→H和Y^L→L的具体计算表示，表示将高频特征和低频特征传递给下一层卷积网络计算。b)通过upsample(f(X^L；W^L→H)，2)完成高频特征的下采样，将高频信息传递给下一层的低频卷积中。通过f(pool(X^H，2)；W^H→L)完成低频特征的上采样，将低频信息传递给下一层的高频卷积中。这种交换，进一步将卷积层从更远的位置获取更多的上下午信息，提高网络特征的性能。

具体而言，如说明书附图2中所示，将一般的深层卷积网络的主干块进行修改。图2中的左边部分，表示一般的特征提取卷积，conv表示卷积计算，conv1x1表示卷积大小为1，conv3x3表示卷积为3x3大小的卷积。一般的较深的深度网络由此卷积结构构成，其中s1表示卷积计算的步长为1。右边部分，在一般特征卷积的基础上，添加了低频卷积计算，相互交叉的连线代表式(2)的操作。c₁高频卷积通道数，此卷积计算属于高频卷积计算；c₁低频卷积通道数，此卷积计算属于低频卷积计算。其中，c＝c₁+c₂。

步骤S3：使用一个函数f_θ(z，x)去比较目标样例图像z和搜索图像x的相似度。通过以下公式输出相关性映射图谱：

式(3)中，z表示感兴趣的图像，x表示视频后续帧中的搜索区域。具体而言，z表示给定目标真值为中心的w×h裁剪，x是目标位置估计结果为中心的更大的裁剪。这两个裁剪输入到相同的卷积网络

进行处理。此时，卷积网络

就是高低频卷积网络特征。相当于在搜索图像x上做以模版图像z的穷举搜索。搜索得到的函数f_θ(z，x)的响应值用于跟踪。

步骤S4：引入区域建议网络监督相关计算后输出的相关性图谱。监督部分有监督部分有两个分支，一个用来做前景目标和背景的分类，一个用来建议回归。特征

和特征

和

一个是用来回归的reg分支特征，即

和

然后通过下面的公式分别计算分类分支和回归分支：

式(4)中，两个分支的计算将所述步骤S3的相关性计算进行结合，输出的F^cls和F^reg通过参数影响比例一般为0.5和0.5。

此外，由于深度网络需要进行预训练网络参数，所以在训练过程中，分类分支的损失函数Cross-entropy loss,而回归分支的损失为smooth L₁。

为了评估本算法的性能，本发明采用目标跟踪常用的跟踪数据集OTB(OTB-2013和OTB-2015)进行初步的评价。给出了两个评价指标AUC和Pre的对比值

本实验选择了名为SiamRPN跟踪方法、用更深的特征网络替换SiamRPN特征提取部分的SiamRPN-Res方法和本发明结合了高低频特征的孪生网络跟踪方法进行定量评价。实验结果对比表如表1所示。

表1

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种结合高低空间频率特征的目标跟踪方法，其特征在于，包括以下步骤：

S1、首先输入原始视频图像序列，并根据原始图像序列所提供的第一帧的目标真值图剪切出目标图像真值和搜索区域图像序列，采用高低空间频率卷积对图像序列进行特征提取，得到每层的高频特征分量和低频特征分量，提取的特征作为判断后续跟踪目标的特征；

2.根据权利要求1所述的一种结合高低空间频率特征的目标跟踪方法，其特征在于，所述步骤S1中对输入的原始视频图像序列的剪切，是对视频序列第一帧所提出的目标位置进行剪切，以前一帧预测的目标位置2倍区域做搜索区域图像序列进行剪切，这样就可以通过特征提取网络得到所需跟踪目标的特征图和后续跟踪过程中搜索区域的特征图。

3.根据权利要求1或2所述的一种结合高低空间频率特征的目标跟踪方法，其特征在于，所述步骤S1中的高低空间频率提取特征，是对剪切后的图像的通道特征进行处理的方法，具体包括：首先经过层普通卷积计算，将输入的图像通道扩张为c，c为一般的特征提取网络的卷积操作后产生的特征通道数目，c₁为高频卷积处理的通道数，c₂为低频卷积处理的通道数，其中，满足c＝c₁+c₂；即通过对一般卷积网络产生的多通道特征进行分区处理，高频卷积处理方式同一般特征提取相同，低频卷积是对第一层卷积输出进行下采样后，再进行正常卷积操作的方式。

4.根据权利要求3所述的一种结合高低空间频率特征的目标跟踪方法，其特征在于，所述步骤S2中将高低特征进行信息交换，是通过特征提取网络的第一块卷积所得到的特征张量X，将通道总数量c分为c₁个通道特征和c₂个通道特征，c₁个通道特征作为高频卷积的特征分量X^H输入，c₂个通道特征作为低频卷积的特征分量X^L输入，通过卷积计算后，将高频和低频分量的特征输出分解为Y＝{Y^H，Y^L}，通过上下采样，统一高低频采样卷积计算输出后的空间分辨率，输出的特征可以表示为：

式(1)中，Y^H→H和Y^L→L表示高低频卷积计算后，相同空间分辨率的特征信息传递，Y^H→L和Y^L ^→H表示高低频信息交换。

5.根据权利要求4所述的一种结合高低空间频率特征的目标跟踪方法，其特征在于，为了运算新卷积的输出特征张量，设有卷积核W＝{W^H→H，W^L→H，W^L→L，W^H→L}，用来负责对输入特征X^L和X^H进行卷积，因此，用特征计算可以细化为：

a)输出函数f(X^H；W^H→H)和f(X^L；W^L→L)为式(1)的Y^H→H和Y^L→L的具体计算表示，表示将高频特征和低频特征传递给下一层卷积网络计算；b)通过upsample(f(X^L；W^L→H)，2)完成高频特征的下采样，将高频信息传递给下一层的低频卷积中；通过f(pool(X^H，2)；W^H→L)完成低频特征的上采样，将低频信息传递给下一层的高频卷积中。

6.根据权利要求5所述的一种结合高低空间频率特征的目标跟踪方法，其特征在于，所述步骤S3中利用相关性计算获取目标真值特征和搜索区域特征的相关性图，具体包括：