CN110033473A

CN110033473A - 基于模板匹配和深度分类网络的运动目标跟踪方法

Info

Publication number: CN110033473A
Application number: CN201910297980.9A
Authority: CN
Inventors: 田小林; 李芳�; 李帅; 李娇娇; 荀亮; 贾楠
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-19
Anticipated expiration: 2039-04-15
Also published as: CN110033473B

Abstract

本发明公开了一种基于模板匹配和深度分类网络的运动目标跟踪方法，主要解决现有技术目标检测速度慢，及在目标发生外观形变、遮挡时时跟踪不准确的问题。其实现方案为：1)搭建双残差深度分类网络，并对其进行训练；2)在双残差深度分类网络中提取模板网络和检测网络；3)利用模板网络提取模板特征；4)利用检测网络提取检测特征；5)将模板特征在检测特征上进行模板匹配，得到模板匹配图；6)根据模板匹配图确定目标位置；7)根据目标位置更新模板特征；8)判断当前帧是否为最后一帧，若是，结束目标跟踪，否则，将更新后的模板特征作为下一帧的模板特征，返回4)。本发明跟踪速度快，准确率高，用于对剧烈形变、光照变化视频目标跟踪。

Description

基于模板匹配和深度分类网络的运动目标跟踪方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种运动目标跟踪方法，可用于对剧烈形变、镜头抖动、尺度变化、光照变化等这些类型的视频目标跟踪。

背景技术

运动目标跟踪的主要任务要求在仅知道待跟踪目标初始帧信息的情况下学习到一个***，使得***可以准确预测待跟踪目标在视频序列中下一帧的位置。随着人们对计算机视觉领域的不断深入认识，运动目标跟踪在该领域得到广泛应用和发展，由于深度学习在图像分类、图像分割领域的不断应用，深度学习方法也逐渐被应用到目标跟踪领域。相较于传统跟踪方法中过于依赖设计者的先验知识的手动提取特征方法，深度学习方法可以利用大数据的优势，通过大量数据的训练，神经网络能够自动学习特征，目前已经存在大量的跟踪算法来实现运动目标跟踪。但是，由于遮挡、背景杂乱、外观形变、光照变化、视角变化等客观因素的影响，使得准确地跟踪目标仍然面临极大挑战。

南京航空航天大学在其申请的专利文献“一种抗遮挡的目标跟踪方法”(专利申请号201610818828.7，公开号106408591A)中公开了一种基于检测、跟踪与学习的目标跟踪方法。该方法实现的具体步骤是，首先，根据初始的图像帧，确定目标的区域，***通过该目标区域形成初始目标模板；其次，初始化级联检测器参数；接着，加入遮挡的检测机制，并实时更新阈值；然后，分别计算***和检测器对目标的跟踪置信度和检测置信度；最后，根据置信度整合跟踪结果，如***跟踪失败，用检测结果初始化，跟踪结果通过学习模块，对检测器相应参数更新。该方法存在的不足之处是，利用目标模板和背景模板的加权结果作为置信度值，未能反映待跟踪目标响应的波动情况，训练得到的分类器识别能力不够强，当目标发生强烈光照变化、目标快速运动时无法实现长期准确地跟踪。

华南农业大学在其申请的专利文献“基于局部特征学习的目标跟踪方法”(专利申请号201610024953.0，公开号108038435A)中公开一种利用局部特征学习对运动目标的跟踪方法。该方法实现的具体步骤是，(1)将目标区域和背景区域分解成大量局部单元，采用深度学习的方式训练、构建表观模型；(2)计算下一帧图像每个局部区域属于目标的置信度，得到用于目标定位的置信度图；(3)设定阀值T_pos和T_neg，将阀值大于T_pos的局部区域加入目标样本集，将阀值小于T_neg的局部区域加入背景样本集，更新表观模型。该方法存在的不足之处是，需要通过设定阀值判断图像各个局部区域的样本类型，当待跟踪目标产生较大程度遮挡时，会将目标样本或背景样本错分，导致更新后的模型无法继续准确跟踪目标。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种基于模板匹配和深度分类网络的运动目标跟踪方法，以在目标产生形变、尺度变化或遮挡的情况下，实现对目标的准确、有效跟踪。

实现本发明目的技术方案是，首先，针对训练样本不足的问题，选取线下训练的训练机制；其次，利用Resnet 50构建模板网络和检测网络，利用模板网络进行模板图像的特征提取，利用检测网络进行待检测图像的特征提取；最后，将提取的模板特征与检测模板提取的特征进行匹配，确定目标所在位置，其具体步骤包括如下：

(1)搭建双残差深度分类网络模型：

(1a)将两个深度残差神经网络ResNet50作为双残差深度分类网络模型的前端网络，这两个深度残差神经网络的输入层参数不同，其他层的参数相同。

(1b)搭建两个3层的全连接网络作为双残差深度分类网络模型的后端网络，每个全连接网络的第一层为输入层，第二层为隐藏层，第三层为输出层，这两个全连接网络的第一层参数不同，第二层、第三层的参数相同；

(2)将ImageNet分类数据集输入到双残差深度分类网络模型，使用随机梯度下降法，更新双残差深度分类网络模型中每一个节点的权值，得到训练好的双残差深度分类网络模型；

(3)在训练好的双残差深度分类网络模型中删除深度残差网络ResNet50的倒数第二个隐藏层之后的所有层，得到模板网络模型和检测网络模型；

(4)利用模板网络提取模板特征图：

(4a)输入含有待跟踪目标的视频图像序列中第一帧图像，在待跟踪目标初始位置的中心处，以待跟踪目标的一倍长宽确定一个矩形框；

(4b)从矩形框中截取目标图像，调整图像大小为224×224×3像素，得到模板图像；

(4c)将模板图像输入到模板网络中，提取图像的特征，将所有特征组成图像特征图，在模板网络的最后一层输出2048个7×7的模板特征图；

(5)利用检测网络提取检测特征图：

(5a)输入含有待跟踪目标的待检测图像，在待跟踪目标初始位置的中心处，以待跟踪目标的两倍长宽确定一个矩形框；

(5b)从矩形框中截取目标图像，调整图像大小为448×448×3像素，得到检测图像；

(5c)将检测图像输入到检测网络中，提取图像的特征，将所有特征组成图像特征图，在检测网络的最后一层输出2048个14×14的检测特征图；

(6)模板匹配：

(6a)将2048个的模板特征图和2048个的检测特征图进行一一对应，组成2048个模板检测特征对；

(6b)在每一对模板检测特征对中，将7×7的模板特征图在14×14的检测特征图上进行滑框方式的卷积，得到2048个14×14的模板匹配图；

(6c)将2048个模板匹配图中的14×14个像素点一一对应，并将对应点上的匹配值进行求和运算，得到一个14×14的特征响应图。

(7)确定目标所在位置：

(7a)将14×14特征响应图中的响应值从大到小进行排序，选取前10位响应值对应的归一化坐标，求其平均归一化坐标值；

(7b)根据平均归一化坐标值，通过下式计算跟踪目标在视频帧图像中的位置；

x′＝x×m+a-w，y′＝y×n+b-h

其中，x′表示视频帧中目标图像左上角第一个像素的横坐标值，x表示平均归一化横坐标，a表示待跟踪目标初始位置的横坐标值，w表示模板图像的宽度，m表示检测图像的宽度，y′表示视频帧中目标图像左上角第一个像素的纵坐标值，y表示平均归一化纵坐标，b表示待跟踪目标初始位置的纵坐标值，h表示模板图像高度，n表示检测图像的高度。

(8)根据跟踪目标在视频帧图像中的位置提取跟踪目标特征图，根据跟踪目标特征图，更新模板特征图：Z＝ηZ₁+(1-η)Z₂，其中，Z表示更新后的模板特征图，Z₁表示上一帧图像中的模板特征图，η表示模板更新的学习率，其中|η|≤1，Z₂表示当前视频帧中的跟踪目标特征图；

(9)判断当前帧视频图像是否为待跟踪视频图像序列的最后一帧视频图像，若是，则结束对运动待跟踪目标的跟踪，否则，将更新后的模板特征图作为下一帧待跟踪目标的模板特征图，返回(5)，完成目标跟踪。

本发明与现有的技术相比具有以下优点：

第一，由于本发明使用线下训练分类数据集的机制，克服了现有技术中在训练网络时使用第一帧图像反复迭代，容易过拟合，且当待跟踪目标产生较大程度形变时，导致跟踪不准确的问题，使得本发明能够在待跟踪目标产生较大形变时，更准确地跟踪目标。

第二，由于本发明构建双残差深度分类网络模型，利用模板网络和检测网络提取的图像特征进行匹配，使用响应值判断待跟踪目标的位置，克服了现有技术中当待跟踪目标产生较大程度遮挡时，易将正负样本错分，导致更新后的模型无法继续准确跟踪目标的问题，使得本发明能够在待跟踪目标产生较大程度遮挡时，更准确地跟踪目标。

附图说明

图1为本发明的实现流程图；

图2为本发明的仿真图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步的描述。

参照图1，对本发明的具体步骤如下。

步骤1，搭建双残差深度分类网络模型。

1.1)设置前端网络：

对现有的两个深度残差神经网络ResNet50的输入层参数进行调整，其中，第一个网络输入层的神经元个数设置为224×224×3，第二个网络输入层的神经元个数设置448×448×3，其他各层参数保持不变，并将这两个深度残差神经网络作为双残差深度分类网络模型的前端网络；

1.2)设置后端网络：

搭建两个三层的全连接网络作为双残差深度分类网络模型的后端网络，每个全连接网络的第一层为输入层，第二层为隐藏层，第三层为输出层，这两个全连接网络的第一层参数不同，第二层、第三层的参数相同，其中，两个全连接网络中各层的参数如下：

第一个网络的第一层神经元的个数设置为1×1×2048，第二个网络的第一层神经元的个数设置为2×2×2048；

这两个网络的第二层的神经元的个数同时设置为1024，激活函数同时设置为修正线性单元ReLU函数；

这两个网络的第三层的神经元个数同时设置为1000，激活函数同时设置为Softmax函数。

步骤2，训练双残差深度分类网络模型。

将ImageNet分类数据集输入到步骤1搭建的双残差深度分类网络模型中，使用随机梯度下降法，更新双残差深度分类网络模型中每一个节点的权值，得到训练好的双残差深度分类网络模型:

(2a)在(0,0.1)范围内随机选一个数，用该数作为双残差深度分类网络模型中每个节点的初始权值；

(2b)将每个节点的初始权值作为第一次迭代过程中双残差深度分类网络模型中每个节点的当前权值；

(2c)从ImageNet分类数据集中随机选取2ⁿ个样本图像在双残差深度分类网络模型中正向传播，双残差深度分类网络模型的输出层输出2ⁿ个样本图像的分类结果,其中3≤n≤7；

(2d)根据样本图像的分类结果，按照下式，计算分类结果的平均对数损失值：

其中，L表示分类结果的平均对数损失值，N表示随机选取的样本图像的总数，i表示输入样本图像的序号，y_i表示第i个输入样本图像的类别，正类样本的y_i取值为1，负类样本的y_i取值为0，p_i表示分类结果中第i个样本图像的双残差深度分类网络模型输出值；

(2e)用平均对数损失值对双残差深度分类网络中每一个节点的当前权值求偏导，得到双残差深度分类网络模型中每个节点当前权值的梯度值Δw_k；

(2f)根据节点当前权值的梯度值，计算双残差深度分类网络模型中每个节点更新后的权值：

其中，表示双残差深度分类网络模型第k个节点更新后的权值，w_k表示双残差深度分类网络模型第k个节点的当前权值，α表示学习率，其取值范围为(0,1)；

(2g)判断训练数据集中的样本图像是否被全部选用，若是，则得到训练好的双残差深度分类网络模型，否则，将每个节点更新后的权值作为当前权值后，执行(3c)。

步骤3，提取模板网络模型和检测网络模型。

在步骤2中得到的训练好的双残差深度分类网络模型中，分别删除两个深度网络的第49层之后的网络层，剩余的网络成为新的网络。

从剩余的网络中按照输入层参数提取模板网络模型和检测网络模型，即将输入层参数为224×224×3的剩余网络作为模板网络模型，将输入层参数为448×448×3的剩余网络作为检测网络模型。

步骤4，利用模板网络提取模板特征图。

(4a)输入含有待跟踪目标的视频图像序列中第一帧图像，在待跟踪目标初始位置的中心处，以待跟踪目标的一倍长和宽确定一个矩形框；

(4c)将模板图像输入到步骤3中得到的模板网络中对模板图像进行特征提取，并将提取的特征组成特征图后，在模板网络的最后一层输出2048个7×7的特征图，将这2048个7×7的特征图作为模板特征图。

步骤5，利用检测网络提取检测特征图。

(5a)输入含有待跟踪目标的待检测图像，在待跟踪目标初始位置的中心处，以待跟踪目标的两倍长宽确定一个矩形框。

(5c)将检测图像输入到步骤3得到的检测网络中对检测图像进行特征提取，并将提取的特征组成特征图后，在检测网络的最后一层输出2048个14×14的特征图，将这2048个14×14的特征图作为检测特征图。

步骤6，模板匹配。

(6a)将步骤4中得到的2048个的模板特征图和步骤5中得到的2048个的检测特征图进行一一对应，组成2048个模板检测特征对；

(6b)在每一对模板检测特征对中，以检测特征图的左上角为起点，以1个像素为步长，将对应的模板特征图依次平移到检测特征图的右上角、右下角、左下角，最后平移回左上角进行卷积运算，得到2048个14×14的模板匹配图；

步骤7，确定目标所在位置。

(7a)将步骤6中得到的14×14特征响应图中的响应值按照从大到小进行排序，选取前10位响应值对应的归一化坐标，将这10个归一化坐标值求平均运算，得到平均归一化坐标值(x,y)；

(7b)根据平均归一化坐标值，通过下式计算跟踪目标在视频帧图像中的位置：

x′＝x×m+a-w，

y′＝y×n+b-h，

其中，x′表示视频帧中目标图像左上角第一个像素的横坐标值，a表示待跟踪目标初始位置的横坐标值，w表示模板图像的宽度，m表示检测图像的宽度，y′表示视频帧中目标图像左上角第一个像素的纵坐标值，b表示待跟踪目标初始位置的纵坐标值，h表示模板图像高度，n表示检测图像的高度。

步骤8，模板更新。

在检测特征图中，以步骤7中求得的跟踪目标在视频帧图像中的位置为中心，以跟踪目标的初始大小为大小进行剪切操作，获得跟踪目标特征图，根据跟踪目标特征图，更新模板特征图：

Z＝ηZ₁+(1-η)Z₂，

其中，Z表示更新后的模板特征图，Z₁表示上一帧图像中的模板特征图，η表示模板更新的学习率，|η|≤1，Z₂表示当前视频帧中的跟踪目标特征图。

步骤9，判断当前帧视频图像是否为待跟踪视频图像序列的最后一帧视频图像，若是，则结束对运动待跟踪目标的跟踪，否则，将步骤8更新后的模板特征图作为下一帧待跟踪目标的模板特征图，返回步骤5，完成目标跟踪。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明仿真实验的硬件测试平台是：CPU为intel Core i5-6500，主频为3.2GHz，内存8GB，GPU为NVIDIA TITAN Xp；软件平台是：Ubuntu 16.04 LTS，64位操作***，python3.6.5。

2.仿真内容与结果：

用本发明方法对从Object tracking benchmark 2015数据库中采集的一段一名男子在路上走动的视频图像序列进行运动目标跟踪仿真实验，该视频图像序列共有252帧视频图像，仿真实验的结果如图(2)所示，其中：

图2(a)为仿真实验采集的视频图像序列的第1帧图像，图2(a)中白线矩形框表示待跟踪目标的初始位置。

图2(b)为本发明仿真实验中，对采集的视频图像序列，进行目标跟踪的一帧待跟踪目标，发生外观形变和目标遮挡时的视频图像的跟踪结果，其中，灰线矩形框标注的是待跟踪目标的预测位置，白线矩形框标注的是待跟踪目标的真实位置，从该图可见，待跟踪目标与图2(a)中的待跟踪目标相比，发生了外观形变和目标遮挡。

图2(c)为本发明仿真实验中，对采集的视频图像序列进行目标跟踪的一帧待跟踪目标，发生外观形变和光照变化时的视频图像的跟踪结果,其中，灰线矩形框标注的是待跟踪目标的预测位置，白线矩形框标注的是待跟踪目标的位置。从该图可见，待跟踪目标与图2(a)中的待跟踪目标相比，发生了外观形变和光照增强。

由图2(b)和图2(c)可以看出，图中的灰线矩形框框出的目标与白线矩形框框出的目标一致，说明本发明能够在视频图像中待跟踪目标产生形变、光照变化、遮挡时，准确、高效地跟踪目标。

Claims

1.一种基于模板匹配和深度分类网络的运动目标跟踪方法，其特征在于，包括如下：

(1)搭建双残差深度分类网络模型：

(4)利用模板网络提取模板特征图：

(5)利用检测网络提取检测特征图：

(6)模板匹配：

(7)确定目标所在位置：

x′＝x×m+a-w，y′＝y×n+b-h，

2.根据权利要求1所述的方法，其特征在于，(1a)中两个深度残差神经网络ResNet50的输入层，其神经元的个数分别设置为224×224×3和448×448×3。

3.根据权利要求1所述的方法，其特征在于，(1b)中两个全连接网络各层的参数设置如下：

第一层神经元的个数分别为1×1×2048和2×2×2048；

第二层的神经元的个数为1024，其激活函数设置为修正线性单元ReLU函数；

第三层的神经元个数为1000，其激活函数设置为Softmax函数。

4.根据权利要求1所述的方法，其特征在于，(2)中使用随机梯度下降法，更新双残差深度分类网络模型中每一个节点的权值，具体步骤如下：

(2c)从ImageNet分类数据集中随机选取2ⁿ个样本图像在双残差深度分类网络模型中正向传播，其中3≤n≤7，双残差深度分类网络模型的输出层输出2ⁿ个样本图像的分类结果；

其中，L表示分类结果的平均对数损失值，N表示随机选取的样本图像的总数，i表示输入样本图像的序号，y_i表示第i个输入样本图像的类别，正类样本的y_i值取1，负类样本的y_i值取0，p_i表示分类结果中第i个样本图像的双残差深度分类网络模型输出值；

(2g)判断训练数据集中的样本图像是否被全部选用，若是，则得到训练好的双残差深度分类网络模型，否则，将每个节点更新后的权值作为当前权值后执行(2c)。

5.根据权利要求1所述的方法，其特征在于，(6b)中的滑框方式卷积，是以每一对模板检测特征对中的检测特征图的左上角为起点，以1个像素为步长，将对应的模板特征图依次平移到检测特征图的右上角、右下角、左下角，最后平移回左上角进行卷积运算。