CN110490906A

CN110490906A - 一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法

Info

Publication number: CN110490906A
Application number: CN201910771090.7A
Authority: CN
Inventors: 王彩玲; 臧振飞; 蒋国平
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-22

Abstract

一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，首先对于待跟踪的视频序列，采用前后连续的两帧图像作为网络每次获取的输入；然后通过孪生卷积网络对输入的连续两帧图像进行特征提取，经过卷积操作后获取不同层次的外观和语义特征，再通过全连接层级联组合高低层次的深度特征；再将深度特征传输至包含两个LSTM单元的长短期记忆网络进行序列建模，由LSTM遗忘门对序列中不同位置的目标特征进行激活筛选，并通过输出门输出当前目标的状态信息；最后接收LSTM输出的全连接层用以输出目标在当前帧的预测位置坐标，并更新下一帧目标的搜索区域。在保证一定跟踪稳定性和准确性的同时大幅提高跟踪速度，令跟踪实时性得到较大改善。

Description

一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法

技术领域

本发明属于计算机视觉与视觉目标跟踪技术领域，具体涉及一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法。

背景技术

视觉目标跟踪技术是当前计算机视觉领域最主要的几个问题之一，且拥有广泛的应用场景，如安防监控，智能家居，智慧城市等。其主要任务是在一组视频序列中，给定待跟踪目标在第一帧的位置和状态，从第二帧往后寻找同一目标在当前帧的位置。尽管目标跟踪技术已被广泛研究，但受限于在跟踪过程中可能发生的目标形变、背景遮挡、运动模糊、光照变化等干扰因素，视觉目标跟踪的稳定性、准确性和快速性仍然很难保证。

当前视觉目标跟踪方法从基础框架上可以分为两大类：分别是基于手动提取特征的传统方法和基于深度特征的深度学习方法；从构建思想上可以分为两大类：以模版匹配为代表的生成式方法和以逐帧检测为代表的鉴别式方法。基于手动提取特征的传统方法最大的优势在于算法小巧，结构简单，运行效率高且调试方便，易于改造；然而其缺点也十分明显，即以手动提取传统特征的方法大多精度较低，特征提取存在不确定性，难以最大化目标外观对于跟踪过程的有效性。因此，在ImageNet图像识别与检测竞赛被深度学习统治之后，目标跟踪领域也开始引入了以深度神经网络为框架的方法。在2015年举办的VOT竞赛中，Hyeonseob Nam等人提出使用卷积特征进行鉴别式跟踪的MDNet在测试序列中达到惊人的94.8％精度一举夺得冠军并大幅领先其他方法，由此开启了深度学习在目标跟踪领域的广泛应用研究。

尽管利用卷积神经网络提取目标外观特征用于跟踪过程的方法能够达到比较高的跟踪准确度，但由于在一组视频序列中，被跟踪目标的外观随时可能发生难以预料的变化，因此现有的大多数基于深度网络的方法都必须在跟踪过程中加入在线微调，即在跟踪一组序列时，对每一帧的目标提取数百个不同的正负样本，并且在处理后续帧时以提取到的所有样本为基础，不断更新除卷积网络以外的负责分类输出的全连接层的权重参数。众所周知，深度神经网络的参数规模是非常巨大的，任何对于参数的细微改动都会使整个网络重新寻找当前状态下的最优值，而由于这一过程的计算量相比传统方法过于庞大，其所花费的时间是十分漫长的，因此基于深度特征的跟踪方法普遍存在跟踪速度缓慢的问题，难以达到实时。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，通过使用包含两个LSTM单元的长短期记忆网络部分代替常规跟踪方法中的使用多层全连接层实现针对外观特征在线微调online-finetune的策略，使得视频数据特有的帧与帧之间序列关系得以有效利用，并进行序列建模；在保证跟踪稳定性和准确性的同时，大幅提高跟踪速度，改善跟踪的实时性。

本发明提供一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，包括如下步骤：

步骤S1、对于待跟踪的视频序列，采用前后连续的两帧图像作为网络每次获取的输入；

步骤S2、通过孪生卷积网络对输入的连续两帧图像进行特征提取，经过卷积操作后获取不同层次的外观和语义特征，再通过全连接层级联组合高低层次的深度特征；

步骤S3、将深度特征传输至包含两个LSTM单元的长短期记忆网络进行序列建模，由LSTM遗忘门对序列中不同位置的目标特征进行激活筛选，并通过输出门输出当前目标的状态信息；

步骤S4、接收LSTM输出的全连接层用以输出目标在当前帧的预测位置坐标，并更新下一帧目标的搜索区域。

作为本发明的进一步技术方案，所述步骤S2中，孪生卷积网络由网络层数、结构、卷积核大小、池化方式和与Padding步长完全相同且共享权值的两个卷积网络上下并联组成；网络层数包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层和第三池化层；第一卷积层的卷积核大小和通道数为11*11*96，第二卷积层的卷积核大小和通道数为5*5*256，第三卷积层、第四卷积层和第五卷积层的卷积核大小和通道数均为3*3*384，第一池化层、第二池化层和第三池化层的滤波器大小和通道数为3*3；第一卷积层、第一池化层、第二池化层和第三池化层的padding方式为valid方式，第二卷积层、第三卷积层、第四卷积层和地五卷积层的padding方式为same方式；输入图像被孪生卷积网络修改至尺寸为227*227*3。

进一步的，长短期记忆网络部分包含两个LSTM单元，其中第一LSTM接收来自全连接层的卷积特征输入，第二LSTM以第一LSTM的输出和孪生卷积网络部分的级联特征为输入，并结合连续且独立的的跟踪视频序列进行序列数据建模，对同一序列中的同一目标在不同状态下分别计算对应各个序列状态的输出。

进一步的，视频序列的数据集包括ILSVRC2016视频目标检测数据集、阿姆斯特丹常规视频数据库和非自然视频序列，ILSVRC2016视频目标检测数据集包含3862个视频序列，1122397幅图像，1731913个标定目标的边界框，以及7911个目标运动轨迹；阿姆斯特丹常规视频数据库包含314个视频序列，148319幅图像，每个视频序列包含一个特定目标；非自然视频序列由人工合成方法从ImageNet数据集中选用478807幅静止图像采用数据增强策略合成构造而成。

进一步的，两个LSTM单元的前馈方式为

其中，t为帧的索引，x^t和y^t-1分别为当前时刻输入帧和前一时刻输出帧的特征向量，W、R、P分别为输入门、输出门和peephole传递的权重系数矩阵，b为偏差向量，h为双曲正切函数，σ为sigmoid函数，⊙为点乘；z为LSTM单元的整体输入，i为在LSTM的cell间传递的输入门，o为LSTM每个cell的输出门，f为遗忘门，c为序列中不同时刻的cell状态，y为LSTM的整体输出；一次前向传递生成用于存储当前帧目标状态的输出向量y^t和处理当前帧时LSTM的cell状态c^t，且y^t和c^t都将被当作输入传递到处理后续帧时的cell，从而达到在序列数据上前向传播。

进一步的，待跟踪的视频序列输入时，其序列首帧的目标位置以左上坐标和右下坐标成对的形式给定。

本发明取代了其他大部分基于深度学习的方法中使用多层全连接层接收卷积网络层提取的外观特征，再将其用于实现针对目标外观特征变换提高鲁棒性的在线微调online-finetune策略的特点，使用包含两个LSTM单元的长短期记忆网络部分代替多层全连接层来处理视频数据特有的序列间关系进行序列建模，针对技术背景中所提出的基于深度学习的跟踪方法普遍速度较慢，实时性不高的缺陷，在保证一定跟踪稳定性和准确性的同时大幅提高跟踪速度，令跟踪实时性得到较大改善。

附图说明

图1为本发明的方法流程示意图；

具体实施方式

请参阅图1，本实施例提供一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，包括如下步骤：

进行基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪时，首先搭建用于执行跟踪任务的深度神经网络，网络主要包含两个部分：用于对输入图像进行尺度变化和卷积特征提取的孪生卷积神经网络部分，以及接收目标不同层次的外观特征和语义特征并对来自同一视频图像连续帧的特征进行序列建模的长短期记忆网络部分。

孪生卷积网络部分由网络层数、结构、卷积核大小、池化方式和Padding步长完全相同且共享权值的两个卷积网络上下并联组成，具体的网络结构和参数如表1所示：

表1、网络结构和参数表

其中，Layer表示从接收原始图像输入的第一层卷积层Conv1开始直到最后一层池化层之间的所有网络层；Size表示当前卷积层或池化层的卷积核或滤波器大小和通道数；Stride表示当前网络层的滤波器步长；Padding表示当前网络层使用的Padding方式：Same方式或Valid方式。

当来自同一视频序列的连续两帧图像被输入到网络时，网络首先将两幅图像的输入尺寸修改至227*227*3，经过孪生卷积网络部分每一层网络卷积计算输出后的特征维度和尺寸，如表2所示：

表2、各网络层特征维度和尺寸

其中，Layer表示孪生卷积网络部分中不同的网络层，Size表示输入图像经过相应网络层处理后的特征尺度及通道数。

长短期记忆网络部分由两个LSTM单元组成，第一个LSTM接收来自全连接层的卷积特征输入，第二个LSTM以第一个LSTM的输出和孪生卷积网络部分的级联特征为输入，并结合连续且独立的的跟踪视频序列进行序列数据建模。

搭建好用于执行跟踪任务的深度神经网络后，开始训练网络权重参数。采用端到端的训练方式，训练所采用的视频序列数据集包括：

1)ILSVRC2016视频目标检测数据集，其中包含3862个视频序列，1122397幅图像，1731913个标定目标的边界框，以及7911个目标运动轨迹。

2)阿姆斯特丹常规视频数据库(ALOV 300+)，其中包含314个视频序列，148319幅图像，每个视频序列包含一个特定目标。

3)为了增加训练数据中的目标种类，采人工合成方法与数据增强策略从ImageNet数据集中选用不同的静止图像来合成构造包含478807幅图像的非自然视频序列。

与单层LSTM相比，两层LSTM可以处理更多特征细节，捕获更复杂的目标特征变化，并处理更长的序列数据，采用如下式的前馈方式进行传递：

其中，t表示帧的索引，x^t和y^t-1分别是当前时刻输入帧和前一时刻输出帧的特征向量，W、R、P分别表示输入门、输出门和peephole传递的权重系数矩阵，b表示偏差向量，h为双曲正切函数，σ是sigmoid函数，⊙表示点乘；z表示LSTM单元的整体输入，i表示在LSTM的cell间传递的输入门，o表示LSTM每个cell的输出门，f代表遗忘门，c表示序列中不同时刻的cell状态，y表示LSTM的整体输出。一次前向传递生成用于存储当前帧目标状态的输出向量y^t和处理当前帧时LSTM的cell状态c^t，且y^t和c^t都将被当作输入传递到处理后续帧时的cell，从而达到在序列数据上前向传播。由于长短期记忆网络相比其它用于跟踪的深度网络无需在跟踪过程中进行在线微调，因此实时性和跟踪速度可以得到大幅的提高。

下面进行实验。从近年提出的方法中，分别选取基于传统特征和深度特征，以及生成式和鉴别式的数种跟踪方法，在VOT2014和VOT2016两个目标跟踪序列测试集上分别对传统的鉴别式相关滤波器***DSST和本发明进行跟踪准确性和快速性实验对比，结果如表3所示：

表3、试验结果

其中，Methods是参与对比的跟踪方法；Accuracy表示预测目标位置与目标真实位置的重叠区域交并比，能够体现跟踪方法的准确度，Accuracy数值越大，准确度越高；Speed表示跟踪方法在单位时间1秒内对整个测试集测试期间的平均跟踪速率，Speed数值越大，快速性越高。需要说明的是，带“/”标志的栏位表明此方法在测试集发布时还未发表，因此未参与对应测试集的实验。

从表中数据可以看出，本发明在准确性即精度上优于大部分实验比较对象，且跟踪的快速性即跟踪速度大幅优于其他参与实验方法，因此本发明的有效性得以证明。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，其特征在于，所述步骤S2中，孪生卷积网络由网络层数、结构、卷积核大小、池化方式和与Padding步长完全相同且共享权值的两个卷积网络上下并联组成；网络层数包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层和第三池化层；第一卷积层的卷积核大小和通道数为11*11*96，第二卷积层的卷积核大小和通道数为5*5*256，第三卷积层、第四卷积层和第五卷积层的卷积核大小和通道数均为3*3*384，第一池化层、第二池化层和第三池化层的滤波器大小和通道数为3*3；第一卷积层、第一池化层、第二池化层和第三池化层的padding方式为valid方式，第二卷积层、第三卷积层、第四卷积层和地五卷积层的padding方式为same方式；输入图像被孪生卷积网络修改至尺寸为227*227*3。

3.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，其特征在于，长短期记忆网络部分包含两个LSTM单元，其中第一LSTM接收来自全连接层的卷积特征输入，第二LSTM以第一LSTM的输出和孪生卷积网络部分的级联特征为输入，并结合连续且独立的的跟踪视频序列进行序列数据建模，对同一序列中的同一目标在不同状态下分别计算对应各个序列状态的输出。

4.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，其特征在于，视频序列的数据集包括ILSVRC2016视频目标检测数据集、阿姆斯特丹常规视频数据库和非自然视频序列，ILSVRC2016视频目标检测数据集包含3862个视频序列，1122397幅图像，1731913个标定目标的边界框，以及7911个目标运动轨迹；阿姆斯特丹常规视频数据库包含314个视频序列，148319幅图像，每个视频序列包含一个特定目标；非自然视频序列由人工合成方法从ImageNet数据集中选用478807幅静止图像合成构造而成。

5.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，其特征在于，两个LSTM单元的前馈方式为

6.根据权利要求1所述的一种基于孪生卷积网络和长短期记忆网络的实时视觉目标跟踪方法，其特征在于，待跟踪的视频序列输入时，其序列首帧的目标位置以左上坐标和右下坐标成对的形式给定。