CN110033012A

CN110033012A - 一种基于通道特征加权卷积神经网络的生成式目标跟踪方法

Info

Publication number: CN110033012A
Application number: CN201811620278.3A
Authority: CN
Inventors: 王天江; 冯平; 赵志强; 罗逸豪; 冯琪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-07-19

Abstract

本发明公开了一种通道特征加权卷积神经网络的生成式目标跟踪方法，该方法包括：构造基于通道特征的加权卷积神经网络模型，对网络模型进行轮流迭代的训练，训练好的基于通道特征的加权卷积神经网络模型中卷积部分作为共享的特征提取子网络，剩下的部分作为分类子网络。进行目标跟踪时，固定特征提取子网络的参数，重置分类子网络的卷积核参数，对分类子网络进行训练，提取初始目标的特征作为初始模板。在跟踪过程中，自适应更新分类子网络并生成重要的历史目标跟踪模板；对属于前景类概率较高的候选样本，计算得到综合的预测值，将预测值最高的样本作为新的跟踪结果。本发明能够有效提高跟踪的预测精度。

Description

一种基于通道特征加权卷积神经网络的生成式目标跟踪方法

技术领域

本发明属于计算机视觉的具体应用领域，更具体地，涉及一种基于通道特征的加权卷积神经网络的生成式目标跟踪方法。该方法能够有效地提高视频目标跟踪的成功率和准确度。

背景技术

当代社会中随着信息化技术的快速普及和迅速发展，大量的视频采集设备被广泛地应用于人们工作和生活的方方面面，这些设备在使用的过程中产生了数量庞大的视频数据。传统的做法中仅仅依靠人工的方式对这些数据进行分析和处理，这样的处理方式在现实中已经逐渐变得困难甚至是不可行，而在实际应用中针对这些数据存在着各种各样的应用需求，其中就包括视频安全监控、智能交通控制、人机交互***、目标运动分析以及自动驾驶等，视频目标跟踪在视频分析、视频理解、视频交互中有着重要的作用，是这些高阶视频任务的基础。

视频目标跟踪在计算机视觉领域是一个非常活跃的、充满挑战性的重要研究课题。视频目标跟踪是指通过电子设备获取视频数据之后，选取视频中的一个或多个物体作为目标，给出目标的初始状态的位置和尺度信息，然后在后续的视频帧序列中利用目标跟踪算法完成对目标的状态信息的预测，从而跟踪目标运动的过程。

尽管基于视频的目标跟踪技术有着广泛的应用需求，使人们能够从大量的任务中解放出来，并为人们提供分析和决策的重要依据。但是，在现实的场景之中存在着包括光照的变化、物体的旋转、姿态的变化、尺度的缩放、目标的遮挡、运动产生的模糊以及背景中可能出现高度相似物体等诸多干扰因素，使得基于视频的目标跟踪成为一个较为困难的问题。

发明内容

本发明的目的在于提供一种基于通道特征的加权卷积神经网络的生成式目标跟踪方法，该方法能够提取对光照、旋转、遮挡等变化具有良好鲁棒性的深度特征，并且能够充分利用跟踪过程中记录的重要目标特征信息，从而得到准确度高且泛化性好的目标跟踪结果。

本发明提供的基于通道特征加权卷积神经网络的生成式目标跟踪方法也是一种复杂场景的单视觉目标跟踪方法，其特征在于，该方法包括下述步骤：

(1)通过修改VGG-M网络模型并加入通道特征加权卷积层，卷积部分的网络作为序列共享的特征提取子网络，剩下部分作为序列特有的特征分类子网络，从而构造出基于通道特征的加权卷积神经网络模型；

本申请的方法中所使用的网络与VGG-M相比，减少了其中的卷积层的层数，并且最后的全连接层也修改成只有一个全连接层。通过减少卷积层的层数所得到的网络比层次更深的网络提取出来的特征更适合于视频跟踪。图像经过多个卷积层的处理之后会得到很多不同通道的特征输出，考虑到这些不同通道的特征具有不同的重要性，因此在网络的第三个卷积层后的ReLU(Rectified Linear Units,ReLU)层之后加入了一个新构造的卷积层，并将其称之为通道特征加权卷积层。通道特征加权卷积层的维度是1×1×1的，输出的特征通道数目与输入的特征通道数目保持一致，也就是每个特征通道对应一个系数，经过系数加权层之后，得到的特征输出是每个通道的特征按照对应的系数进行加权相乘的结果。基于通道特征的加权卷积神经网络模型训练开始之前，系数加权层的所有系数初始化为一个相同的较小的数值，这么做的意义相当于使所有通道的特征在最初的时候具有相同的权重系数。通道特征加权卷积层和函数层一起构成序列特定的特征分类子网络，该部分之前的网络层则一起构成共享的特征提取子网络。

(2)收集已经带有目标状态信息标注的视频序列，对每个序列根据目标状态信息采集前景类和背景类样本，以构成训练集；

将公开的已打标的视频跟踪数据集VOT-2013、VOT-2014和VOT-2015中的重复的视频序列去掉，对于选出来的每个视频序列，随机选择其中的部分帧图像。在每个被选中的帧上，根据标注的目标状态信息，利用目标中心点的位置坐标和尺度大小的高斯函数生成大量的样本区域。截取这些区域的图像并进行归一化处理，按照这些区域与目标区域重叠率的关系将它们分为前景类样本和背景类样本，并按一定的比例保留两类样本，从而构成样本训练集。

(3)将训练样本按照序列对应的方式组成批次，逐个序列的对基于通道特征的加权卷积神经网络模型进行循环迭代训练，直到设定的循环次数或者预设置的精度阈值；

受计算机内存和显卡显存大小的限制，以及受深度神经网络处理速度的影响，在网络模型训练过程中采用样本分批的方式将它们组织起来。基于通道特征的加权卷积神经网络模型的训练采用序列循环的方式迭代的训练，具体的是指每一次循环中对共享的特征提取子网络和序列特定的特征分类子网络逐一使用该序列特定的特征分类子网络对应的序列批次样本。可以先设置一定大小的循环次数观察网络分类性能的收敛情况，当不满足收敛要求时增大循环次数的阈值，反之为避免过深度网络的过拟合问题，应当适当的减小迭代次数。

(4)对新的视频跟踪序列重新构造序列特定的特征分类子网络，将其与共享的特征提取子网络连接构成新视频序列的跟踪网络模型，也即新视频序列的基于通道特征的加权卷积神经网络模型；

当上一步的网络模型训练结束之后，由于所使用的训练集所包含的视频序列中存在着光照变化、尺度变化、目标遮挡、姿态变化、目标旋转、运动模糊等各种干扰因素，因此共享的特征提取子网络就能够提取对这些干扰因素具有良好鲁棒性的深度特征。但是每个视频序列中的目标不一样，在一个序列中某个物体是需要被跟踪的目标，而在另外的一个视频序列中可能就是背景中的物体，因此针对新的视频序列，在跟踪前需要重新构造序列特定的特征分类子网络，将其与共享的特征提取子网络连接起来构成跟踪过程中所使用的新的跟踪网络模型。

(5)根据新的视频序列中首帧中给出的目标状态信息，进行初始的分类样本采集，利用这些样本对新的特征分类子网络进行训练，使用共享的特征提取子网络提取初始目标的深度特征，并将其作为初始的目标特征模板；

新的跟踪网络模型需要使用新视频序列的样本进行训练，因此根据新的视频序列首帧所给定的目标状态信息，利用其中心位置和尺度大小的高斯函数采样或者均匀采样的方式获得初始的前景类和背景类的样本，并利用这些样本训练新的序列特定的特征分类子网络，共享的特征子网络其参数保持固定不变。此外，本申请的跟踪方法是基于生成式模型的，需要用到初始目标的特征，因此利用共享的特征提取子网络对初始目标的区域进行深度特征提取，经过处理后得到初始的目标特征模板。

(6)将初始的历史目标特征模板设置为空，并将上一帧的目标特征模板设置为初始的目标特征模板；

跟踪过程中采用多模板匹配的生成式跟踪策略，第一帧和当前帧的上一帧分别包含了目标初始以及最近的状态和外观特征，在跟踪的过程中目标的外观可能会发生各种变化，其中一些变化的外观特征可能会在后续的运动过程中以相似的外观特征再度呈现出来，因此记录其中重要的变化信息能够为后续的跟踪提供重要的信息。为重要的历史跟踪结果设置一个模板池，初始时将其设置为空，而当前帧的上一帧的目标特征模板则设置为与初始的目标特征模板相同。

(7)根据最新的目标状态信息生成目标候选区域，利用网络模型对候选区域提取特征并分类；

目标的运动通常具有一定的规律，例如新的目标位置和尺度的变化可能一定程度上呈高斯分布，因此利用高斯函数生成候选目标区域，并利用最新的网络模型对所有的候选目标区域进行深度特征提取并分类。

(8)计算分类结果中属于前景类概率较高的候选区域的特征与三种目标特征模板的加权相似度，其中，三种目标特征模板分别是指初始帧中目标外观的深度特征模板，当前帧的上一帧中目标外观的深度特征模板以及跟踪过程中目标外观显著变化的历史帧中目标外观的深度特征模板；

上一步网络分类的结果表示的是候选块属于前景类和背景类的概率，属于前景类的概率值越高则表示越有可能是要跟踪的目标，但是这是判别式模型的跟踪方法，其问题是它只是按照特征分类的结果进行判定，可能属于前景类概率最高的候选块并不比其它概率值接近的候选块的匹配度更高。因此，本申请的方法选出属于前景类概率值较高的部分候选区域，进一步计算它们的深度特征与三种目标特征模板之间的相似度，最后将三种相似度进行加权得到一个综合的相似度。

(9)将加权相似度最高的候选块作为新的目标跟踪结果，并将新目标块的特征作为上一帧的目标特征模板，根据所有候选块的分类情况确定是否采集新的样本以及是否利用新的样本更新网络和历史目标特征模板；

计算得到综合的相似度之后，从中选择值最大的候选块作为新一帧的目标跟踪结果，同时将该块的深度特征作为下一次跟踪所使用的上一帧的目标特征模板。所有候选块的特征分类结果能够很好地反应目标外观变化的程度，如果能够在候选区域中发现不存在属于前景类概率较高的块则跟踪的结果可信度较差，说明目标的外观特征发生了较大的变化，此时应该利用跟踪过程中收集的样本进行网络模型的更新，并将新目标区域的特征保存到历史目标特征模板中；反之，则表明跟踪结果的可信度较高，在当前帧采样前景类和背景类样本以待用于网络模型的更新。

(10)判断跟踪是否结束，如果没有结束则循环执行步骤(7)至(10)。

概括可知，本发明公开了一种通道特征加权卷积神经网络的生成式目标跟踪方法，该方法包括：构造前景背景二分类的通道特征加权卷积神经网络模型，从视频跟踪的训练数据集中采集前景类背景类样本，利用各个视频序列的样本数据对通道特征加权卷积神经网络模型进行轮流迭代的训练，训练好的通道特征加权卷积神经网络模型中卷积部分作为共享的特征提取子网络，剩下的部分作为分类子网络。进行目标跟踪时，固定特征提取子网络的参数，重置分类子网络的卷积核参数，根据首帧的目标状态信息采集当前跟踪序列设定的前景类背景类样本，对分类子网络进行训练，提取初始目标的特征作为初始模板。在跟踪过程中，收集可信度较高的样本，根据候选目标分类的结果，自适应更新分类子网络并生成重要的历史目标跟踪模板；对属于前景类概率较高的候选样本，计算它们的卷积特征与初始模板、上一帧目标特征和历史模板之间的相似度并加权求和得到综合的预测值，将预测值最高的样本作为新的跟踪结果。

本发明方法依靠计算机视觉领域中先进的图像处理和模式识别技术，充分利用强大的特征表示方法和跟踪过程中重要的目标特征信息，有效地完成复杂场景中视频目标跟踪。详细地，本发明通过通道特征加权卷积神经网络提取特征，提出基于深度特征的生成式目标跟踪方法，其核心思想简单，通过多模板匹配的生成式目标跟踪模型，该方法能够提取对光照、旋转、遮挡等变化具有良好鲁棒性的深度特征，并且能够充分利用跟踪过程中记录的重要目标特征信息，从而得到准确度高且泛化性好的目标跟踪结果，为视频分析、视频理解、视频交互等计算机视觉任务打下良好的基础，进而为视频安全监控、智能交通控制、人机交互***、目标运动分析以及自动驾驶等各类应用提供强力可靠的技术支撑，能够有效提高跟踪的预测精度。

附图说明

图1为本发明中一种基于通道特征加权卷积神经网络的生成式目标跟踪方法框架示意图。

图2为本发明中的通道特征加权卷积神经网络的网络模型训练方式示意图。

图3为本发明实施示例在视频目标跟踪过程中产生的历史目标特征模板示意图。

图4为本发明实施示例在多个测试视频序列中的部分帧上的目标跟踪结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，提出一种基于通道特征的加权卷积神经网络的生成式目标跟踪方法。一方面，通过在网络中加入通道特征加权卷积层构造卷积神经网络用于特征提取，从通道特征层面考虑了不同特征具有不同的重要性，赋予他们不同的权重，提取的特征更适合于特征相似性的计算。另一方面，根据所有候选块分类结果的情况，自适应的采集跟踪过程中产生的置信度较高的样本，并且以自适应的方式更新网络和生成历史特征模板。最后计算候选块的深度特征与初始目标特征模板、上一帧目标特征模板以及历史特征模板的加权相似度，将相似度值最高的候选块作为跟踪的结果，充分利用了目标跟踪的初始信息、最近的外观特征以及重要的历史变化特征，从而能有效地提高跟踪的成功率和准确性。

图1为本发明实施例提供的一种基于通道特征加权卷积神经网络的生成式目标跟踪方法的流程示意图，该方法包括以下步骤：

(1)通过修改VGG-M网络模型(也即加权卷积神经网络模型)并加入通道特征加权卷积层，卷积部分的网络作为序列共享的特征提取子网络，剩下部分作为序列特有的特征分类子网络，从而构造基于通道特征的加权卷积神经网络模型；

基于通道特征的加权卷积神经网络模型接收的输入图像大小是107像素*107像素*3像素的，包含三个普通的卷积层，卷积核的大小分别是7像素*7像素*3*96、5像素*5像素*96*259、3像素*3像素*256*512，卷积核大小的后两个参数分别表示卷积层输入的特征通道数和卷积之后的特征输出特征通道数，前两个卷积核的卷积步长为2像素*2像素，第三个卷积核的步长为1像素*1像素。这些层之间分别包含着ReLU层、归一化层和池化层，其中池化层的尺度是3像素*3像素的，其池化步长2像素*2像素。第三个卷积层之后跟着一个ReLU层、一个通道特征加权卷积层和一个ReLU层，这些层构成了共享的特征提取子网络，特征共享子网络之后是一个3*3*512*2的全连接层和一个函数层，这两层构成序列特定的特征分类子网络。

(2)收集已经带有目标状态信息标注的视频序列，对每个序列根据目标状态信息采集前景类和背景类样本构成训练集；

对于每一个视频序列随机从中选出8帧，并从选出的每一帧的图像中根据目标的状态信息采集50个正样本和200个负样本。正负样本是按照样本所在区域与真实目标所在区域的面积重叠比率的大小定义的，根据重叠比率设定两个阈值，如果重叠的比率大于或者等于0.7则将样本定义为正样本，而如果重叠的比率小于0.5则将样本定义为负样本。

基于通道特征的加权卷积神经网络模型使用训练集的视频序列进行150次的循环迭代训练，在每一次的迭代过程中，针对训练集的每个序列的样本的从中随机的选择32个正样本和96个负样本组成一个样本输入的批次。

(4)对新的视频跟踪序列重新构造序列特定的特征分类子网络，将其与共享的特征提取子网络连接构成新视频序列的基于通道特征的加权卷积神经网络模型，也即用于跟踪的网络模型；

(5)根据新的视频序列中首帧中给出的目标状态信息进行初始的分类样本采集，利用这些样本对新的特征分类子网络的进行训练，使用共享的特征提取子网络提取初始目标的深度特征并将其作为初始的目标特征模板；

根据序列中第一帧目标的状态信息采集500个正样本和5000个负样本，同样随机选择32个正样本和96个负样本组成一个样本输入的批次，循环迭代20次对新的序列特定的特征分类子网络的全连接层参数进行训练学习。利用共享的特征提取子网络提取初始目标的深度特征，经过向量化和归一化之后将其作为初始的目标特征模板。

(7)根据最新的目标状态信息生成目标候选区域，利用基于通道特征的加权卷积神经网络模型对候选区域提取特征并分类；

根据最新的目标状态信息，利用目标中心点的位置坐标和尺度大小的高斯函数生成256个候选样本区域，并利用最新的基于通道特征的加权卷积神经网络模型对这些区域进行深度特征提取和分类。

(8)计算分类结果中属于前景类概率较高的候选区域的特征与三种目标特征模板的加权相似度；所述三种目标特征模板分别是指初始帧中目标外观的深度特征模板，当前帧的上一帧中目标外观的深度特征模板以及跟踪过程中目标外观显著变化的历史帧中目标外观的深度特征模板；

选择候选块中属于前景类的概率大于0.5的部分(如果不存在则选择按照概率值由大到小排序的前50个候选块)，利用JS散度(Jensen-Shannon divergence)计算这些块的深度特征与三种目标特征模板的相似度并加权得到综合的相似度匹配值。与历史特征模板的相似度的值取候选块特征与历史目标特征模板池中所有模板的相似度的最大值。

将综合相似度最高的候选块作为最新的跟踪结果，并且将它的深度特征作为下一帧跟踪所使用的上一帧目标特征模板。

当存在属于前景类概率值大于等于0.6的候选块时，根据最新的跟踪结果的状态信息采集新的前景类样本和背景类样本，其中前景类样本利用高斯函数采样，采集的样本的数量为50，而背景类样本利用均匀采样方法采样，采集的样本的数量为200。当所有的候选块被分类为前景类的概率值小于0.55时则认为目标的外观特征发生了较大的变化，此时利用收集的样本集合中最近20帧内(不足20帧则取所有最近的帧)的前景类样本和最近50帧内(不足50帧则取所有最近的帧)的背景类样本对网络模型进行增量式的更新，同时将最新的跟踪结果区块的深度特征作为一个新的历史目标特征模板保存至历史目标特征模板池中。

以下以多个测试的视频序列为例，展示两种评价指标下，使用本申请中的跟踪方法得到的跟踪结果。

评价目标跟踪准确性的指标主要有两种，一种是使用欧氏距离度量跟踪结果的中心位置与目标真实状态中的中心位置的误差，称为中心定位误差(Center LocationError,CLE)，很明显，中心的欧氏距离越小表示误差越小，则跟踪越准确；另外一种则是用于度量跟踪结果的区域与目标真实状态的区域面积重叠比率，称为重叠比率(OverlapRatio,OR)，当区域面积的重叠比率越高表明预测的重合度越高则跟踪结果越准确。对于整个视频序列跟踪结果准确性的评价则是取单帧评价结果的平均值进行比较，假设某一帧跟踪算法得到的预测结果其中心位置以及区域面积分别记为(x_p,y_p)和R_p，对应的真实目标的中心位置以及区域面积分别记为(x_g,y_g)和R_g，则两种评价指标的计算公式如下：

	Boy	Deer	Dudek	Freeman3	Freeman4	Girl	Liquor	FleetFace	Dog1	Skating1	Suv
												CLE	2.88	1.55	2.75	6.98	12.93	3.35	6.33	9.75	4.15	3.59	4.33
OR	0.73	0.83	0.87	0.70	0.79	0.76	0.67	0.72	0.82	0.69	0.74

表格中的第一行是不同视频序列的名称，CLE指标的值越小则中心位置越准确，而OR指标的值越大则重合度越高。从以上表格可知,本发明的方法在以上视频序列中能获得中心位置偏差小同时重合度高的跟踪效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于通道特征加权卷积神经网络的生成式目标跟踪方法，其特征在于，包括如下步骤：

(1)修改VGG-M网络模型并加入通道特征加权卷积层，卷积部分的网络作为序列共享的特征提取子网络，剩下部分作为序列特定的特征分类子网络，从而构造基于通道特征的加权卷积神经网络模型；

(2)收集已经带有目标状态信息标注的视频序列，对每个序列根据目标状态信息采集前景类和背景类样本，以构成训练样本集；

(3)将训练样本集按照序列对应的方式组成批次，逐个序列的对基于通道特征的加权卷积神经网络模型进行循环迭代训练，直到设定的循环次数或者预设置的精度阈值；

(4)对新的视频跟踪序列重新构造序列特定的特征分类子网络，将其与共享的特征提取子网络连接构成新视频序列的基于通道特征的加权卷积神经网络模型；

(5)根据新的视频序列中首帧中给出的目标状态信息进行初始的分类样本采集，利用采集获得的样本对新的序列特定的特征分类子网络进行训练，使用共享的特征提取子网络提取初始目标的深度特征并将其作为初始的目标特征模板；

(6)将初始的历史目标特征模板设置为空，并将当前帧的上一帧的目标特征模板设置为初始的目标特征模板；

(7)根据最新的目标状态信息生成目标候选区域，利用新视频序列的基于通道特征的加权卷积神经网络模型对候选区域提取特征并分类；

(8)计算分类结果中属于前景类概率较高的候选区域的特征与三种目标特征模板的加权相似度，所述三种目标特征模板分别是指初始帧中目标外观的深度特征模板、当前帧的上一帧中目标外观的深度特征模板以及跟踪过程中目标外观显著变化的历史帧中目标外观的深度特征模板；

(9)将加权相似度最高的候选块作为新的目标跟踪结果，并将新目标块的特征作为上一帧的目标特征模板，根据所有候选块的分类情况确定是否采集新的样本以及是否利用新的样本更新基于通道特征的加权卷积神经网络模型和历史目标特征模板；

2.如权利要求1所述的一种基于通道特征加权卷积神经网络的生成式目标跟踪方法，其特征在于，步骤(2)中，将公开的已打标的视频跟踪数据集VOT-2013、VOT-2014和VOT-2015中的重复的视频序列去掉，对于选出来的每个视频序列，随机选择其中的部分帧图像，

在每个被选中的帧上，根据标注的目标状态信息，利用目标中心点的位置坐标和尺度大小的高斯函数生成大量的样本区域，截取以上样本区域的图像并进行归一化处理，按照以上样本区域与目标区域重叠率的关系样本分为前景类样本和背景类样本，从而构成样本训练集。

3.如权利要求2所述的一种基于通道特征加权卷积神经网络的生成式目标跟踪方法，其特征在于，步骤(3)中，

基于通道特征的加权卷积神经网络模型的训练采用序列循环的方式迭代训练，具体的是指，每一次循环中对共享的特征提取子网络和序列特定的特征分类子网络逐一使用序列特定的特征分类子网络对应的序列批次样本。

4.如权利要求3所述的一种基于通道特征加权卷积神经网络的生成式目标跟踪方法，其特征在于，步骤(9)中，

如果能够在候选区域中发现不存在属于前景类概率较高的块，则跟踪的结果可信度较差，说明目标的外观特征发生了较大的变化，此时利用跟踪过程中收集的样本进行基于通道特征的加权卷积神经网络模型的更新，并将新目标区域的特征保存到历史目标特征模板中；

反之，则表明跟踪结果的可信度较高，在当前帧采样前景类和背景类样本，以待用于基于通道特征的加权卷积神经网络模型的更新。